- 博客(45)
- 资源 (1)
- 收藏
- 关注
原创 豆瓣影评分析系统
临近毕业,开始搞毕业设计,博主尝试做一个豆瓣影评分析系统。先导:设计思路使用Selenium+Phantomjs 爬取 豆瓣电影最新电影的影评存储为txt文件使用Jieba 中文分词工具进行分词和词云的展示使用snownlp包进行影评情感分析和影片情感倾向分析一、爬取豆瓣影评数据安装依赖环境:pip install seleniumpip install pyte...
2018-05-08 23:00:03 6189 5
转载 Hadoop2.7.3 mapreduce(五)详解
一、为什么使用Mapreduce?MapReduce是为了解决传统HPC框架在面对海量数据时扩展困难而产生的。MapReduce致力于解决大规模数据处理的问题,利用局部性原理将整个问题分而治之。 MapReduce集群由普通PC机构成,为无共享式架构。在处理之前,将数据集分布至各个节点。处理时,每个节点就近读取本地存储的数据处理(Map),将处理后的数据进行合并(Combine)、排序
2017-07-27 20:17:37 1660 1
原创 Hadoop2.7.3 mapreduce(四)倒排索引的实现
一、倒排索引简介倒排索引是文档检索系统中最常用的数据结构,被广泛用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档的存储位置映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行了相反的操作(根据关键字来查找文档),因而称为倒排索引(Inverted Index)。二、Map过程首先使用默认的TextInputFormat类对
2017-07-25 19:53:42 1119
原创 ArrayList(一)源码分析
一、ArrayList概述ArrayList 是一个数组队列,相当于动态数组。与Java中的数组相比,它的容量能动态增长。它继承于AbstractList,实现了List, RandomAccess, Cloneable, java.io.Serializable这些接口。ArrayList 继承了AbstractList,实现了List。它是一个数组队列,提供了相关的添加、删除、修改、遍
2017-07-21 17:04:53 367
原创 Hadoop2.7.3 mapreduce(三)SequenceFile和MapFile 简介与应用
Hadoop的 hdfs 和 mapreduce 子框架主要是针对大数据文件设计的,在小文件的处理上不但效率低下,而且十分消耗磁盘空间(每一个小文件占用一个Block , hdfs默认block大小为128M)。因此,hadoop提供给我们SequenceFile和MapFile两种容器处理小文件,将这些小文件组织起来统一存储。【SequenceFile】1、SequenceFile概
2017-07-19 10:08:30 763
原创 Hadoop2.7.3 mapreduce(二)类型匹配异常解决方案及源码分析
我们在运行mapreduce时,有时候会出现类型匹配异常。java.lang.Exception: java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, received org.apache.hadoop.io.Text at org.apache.ha
2017-07-16 17:04:30 1392
原创 Hadoop2.7.3 mapreduce(一)原理及"hello world"实例
MapReduce编程模型【1】先对输入的信息进行切片处理。【2】每个map函数对所划分的数据并行处理,产生不同的中间结果输出。【3】对map的中间结果数据进行收集整理(aggregate & shuffle)处理,交给reduce。【4】reduce进行计算最终结果。【5】汇总所有reduce的输出结果。【名词解释】ResourceManage
2017-07-16 15:33:58 2334
原创 圣诞夜送最爱的人一棵Python画的圣诞树
圣诞节到了,给你最爱的人送上一棵python做的圣诞树吧。程序员的专属浪漫。我的朋友圈已经让圣诞树刷屏了。首先送给大家一波学习福利——python电子书,我都给大家整理好了,都是学习Python的经典好资料!话不多数,直接上代码,Ctrl+CV就能运行!点击获取Python电子书 学Python,进大厂!1.精简版圣诞树stars = 1width = 15tree = 3for i in range(width): if i == 0: print((' ' *
2021-12-24 15:44:57 279
原创 软考高级信息系统项目管理师经验分享
前两天2021年下半年信息系统项目管理工程师出成绩了,侥幸过线(如果分数线还是45的话)。所以来给大家分享一下备考经验,传递好运呀!点击获取信息系统项目管理工程师复习备考资料1. 基础信息信息系统项目管抄理师考试考试科目共有三门:1、信息系统项目管理综合知识,上午考试,考试时间为150分钟,笔试,选择题,总分为75分。2、信息系统项目管理案例分析,下午考试,考试时间为90分钟,笔试,问答题,总分为75分。3、信息系统项目管理论文,下午考试,考试时间为120分钟,笔试,论文题,总分为75分。高
2021-12-24 15:04:50 8839
原创 2021哔哩哔哩1024程序员节日第二弹:安全攻防挑战赛
文章目录1.安防第一题2.安防第二题3.安防第三题4.安防第四题5671.安防第一题1024程序员节,大家一起和2233参与解密游戏吧~happy_1024_2233:e9ca6f21583a1533d3ff4fd47ddc463c6a1c7d2cf084d3640408abca7deabb96a58f50471171b60e02b1a8dbd32db156看不懂解密直接一把梭,解密全试错了一遍,猜测happy_1024_2233应该是密钥,试了一下AES还是没解出来,后面又找了几个网站试了
2021-10-26 15:53:10 1444
原创 2021哔哩哔哩1024程序员节日第一弹:算法与安全
前两天参加了哔哩哔哩1024程序员节活动,看到了几个有意思的算法题,分享一下。(文末有全部答案)文章目录1.蚂蚁爬木杆2.爬台阶3.中位数4.香钟5.吃烤鸭6.报307.老鼠吃毒药1.蚂蚁爬木杆有一根长27厘米的细木杆,在第3厘米、7厘米、11厘米、17厘米、23厘米这五个位置上各有一只蚂蚁。木杆很细,不能同时通过两只蚂蚁。开始时,蚂蚁的头朝左还是朝右是任意的,它们只会朝前走或调头,但不会后退。当任意两只蚂蚁碰头时,两只蚂蚁会同时调头朝反方向走。假设蚂蚁们每秒钟可以走一厘米的距离,求所有蚂蚁
2021-10-26 15:35:59 657
原创 考研复试常见问题(算法篇)
文章目录1.平衡二叉树和红黑树2.哈夫曼编码3.B+树4.排序算法5.查找算法1.平衡二叉树和红黑树【平衡二叉树】:又称为AVL树,是一种特殊的二叉排序树,它的左右子树都是平衡二叉树,且左右子树高度差的绝对值不大于1。将二叉树上结点的左子树深度减去右子树深度称为平衡因子BF,平衡二叉树上的平衡因子只可能是-1、0、1,否则二叉树就不是平衡的。【红黑树】:是一种二叉查找树,但每个结点增加一个存储位表示结点颜色(非黑即红),通过对任何一条从根到叶子结点的路径各个结点着色方式的限制,红黑树确保没有一条路径
2020-05-15 12:35:02 3083
原创 考研复试常见问题(操作系统篇)
文章目录一、计算机系统概述1.简述操作系统的目标和功能(什么是操作系统)2.简述处理机的两种状态3.简述操作系统的层次结构4.简述中断和异常异同5.简述系统调用6.大内核和微内核二、进程管理7.简述进程与线程8.简述进程和程序的区别9.进程通信方式10.进程的5状态模型及转换过程11.进程的调度算法12.进程同步和互斥13.死锁14.银行家算法15.死锁定理16.饥饿和死锁的区别三、内存管理17.存储器管理应具有的功能18.将用户程序变为可在内存中执行程序的步骤19.程序的链接方式有哪些20.程序的装入方式
2020-05-14 10:40:25 4521 1
原创 考研复试常见问题(数据库系统概论篇)
文章目录1.如何理解数据库规范化过程/概述范式2.简述完整性约束条件3.简述事务和事务特性4.并发性一致的问题5.简述封锁6.简述ER图7.简述数据库的三级模式结构8.简述数据库的二级映像功能和数据独立性9.关系、关系模式、关系数据库的区别10.简述查询优化的策略11.简述数据字典12.数据库故障恢复策略1.如何理解数据库规范化过程/概述范式常见的范式有1NF、2NF、3NF、BCNF,他们的规范化程度是逐步增高的1NF是指数据库表的每一列都是不可分割的数据项,只要是关系型数据库都要满足1NF;2
2020-05-13 15:15:44 9294 1
原创 C++错题整理
文章目录基础题44.函数重载的目的第一套卷45.从程序片段46.内存泄漏是指()47.友元函数()48.若一个类的成员函数前用`static`,则该成员函数()49.程序设计题50.程序设计题51.由C++源程序文件编译而成的目标文件的缺省扩展名为()52.`char *p = "Hello";`输出这个字符串的地址值()53.54.现定义函数模板,有什么问题?55. `#include 基础题...
2020-03-22 22:17:31 5508
原创 C++程序设计重点总结(谭浩强版)
文章目录第1章 C++初步知识1.流程第3章 程序设计1.优先级2.switchbreak continue第4章 函数1.内置函数2.函数重载3.函数模板4.带默认参数的函数5.动态存储和静态存储6.auto(自动变量、动态存储)7.static(静态局部变量、静态存储)8.register(寄存器变量、在内存)9.extern(外部变量、静态存储、别的文件可引用)10.static(静态外部变...
2020-03-22 22:14:48 6197 1
原创 CCF 201812-2 小明放学(Java 100分)
文章目录1 题目2 代码第一遍写60分,找了半天没有逻辑错误,百度之后,发现是因为int类型的问题,测试用例的数据超过了int的范围,要使用long型1 题目2 代码import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.util...
2020-01-17 12:45:01 419
原创 CCF 201809-2 买菜(Java 100分)
文章目录1 题目2 我的思路3 代码1 题目问题描述小H和小W来到了一条街上,两人分开买菜,他们买菜的过程可以描述为,去店里买一些菜然后去旁边的一个广场把菜装上车,两人都要买n种菜,所以也都要装n次车。具体的,对于小H来说有n个不相交的时间段[a1,b1],[a2,b2]…[an,bn]在装车,对于小W来说有n个不相交的时间段[c1,d1],[c2,d2]…[cn,dn]在装车。其中,一个...
2020-01-16 14:50:21 404 1
原创 CCF 201803-2 碰撞的小球(Java 100分)
文章目录1 题目2 我的思路3 代码1 题目问题描述 数轴上有一条长度为L(L为偶数)的线段,左端点在原点,右端点在坐标L处。有n个不计体积的小球在线段上,开始时所有的小球都处在偶数坐标上,速度方向向右,速度大小为1单位长度每秒。 当小球到达线段的端点(左端点或右端点)的时候,会立即向相反的方向移动,速度大小仍然为原来大小。 当两个小球撞到一起的时候,两个小球会分别向与自己原来移...
2020-01-15 18:33:32 368
原创 CCF 201709-2 公共钥匙盒 (Java 100分)
问题描述有一个学校的老师共用N个教室,按照规定,所有的钥匙都必须放在公共钥匙盒里,老师不能带钥匙回家。每次老师上课前,都从公共钥匙盒里找到自己上课的教室的钥匙去开门,上完课后,再将钥匙放回到钥匙盒中。钥匙盒一共有N个挂钩,从左到右排成一排,用来挂N个教室的钥匙。一串钥匙没有固定的悬挂位置,但钥匙上有标识,所以老师们不会弄混钥匙。每次取钥匙的时候,老师们都会找到自己所需要的钥匙将其取走,而不...
2020-01-13 22:55:08 343
原创 CCF 201604-2 俄罗斯方块 (Java 100分)
问题描述俄罗斯方块是俄罗斯人阿列克谢·帕基特诺夫发明的一款休闲游戏。游戏在一个15行10列的方格图上进行,方格图上的每一个格子可能已经放置了方块,或者没有放置方块。每一轮,都会有一个新的由4个小方块组成的板块从方格图的上方落下,玩家可以操作板块左右移动放到合适的位置,当板块中某一个方块的下边缘与方格图上的方块上边缘重合或者达到下边界时,板块不再移动,如果此时方格图的某一行全放满了方块,则该行...
2020-01-10 15:01:57 264
原创 Python 使用 cx_Oracle 教程
cx_Oracle的使用需要调用Oracle环境,因此需要安装Oracle客户端(推荐oracle instantclient) 官网地址:http://www.oracle.com/technetwork/database/database-technologies/instant-client/overview/index.html 一、 Windows环境1.下载Windows...
2018-04-20 16:46:05 1898
原创 CentOS 7 更换yum源
CentOS 7 阿里云源:wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repoCentOS 7 网易源:wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.163.com/.help/CentOS7...
2018-02-14 22:15:45 335
原创 以空间换时间的排序(不发生交换的排序)
(1)桶排序给定数组,数组中的元素的值>=0,有可能重复, 进行排序,但算法复杂度为恒定, 不允许交换桶排序 线性排序的基础待排数组 5 4 9 2 Ns数组的值 0 0 [1 0 1 1 0 0 0 1] M 将下标取出即为排好序的数组s数组下标 0 1 2 3 4 5 6 7参考下标 0 1 2 3 4 5 6...
2017-09-22 21:28:54 1486
原创 Linux安装redis(配置gcc)
redis官网下载地址:https://redis.io/download使用 rz 命令导入解压redis包tar -zxvf ~/software/redis-3.2.10.tar.gz cd redis-3.2.10/使用make命令进行编译make报错!:原因:要安装gcc编译器!!!sudo apt
2017-09-05 15:22:23 2925
原创 使用Sqoop将Hive结果迁移至Mysql(四)
使用Sqoop将结果进行数据迁移,存放在mysql中。1. 用Sqoop创建link和jobpackage com.yc.elm.utils;import org.apache.sqoop.client.SqoopClient;import org.apache.sqoop.model.MDriverConfig;import org.apache.sqoop.model.MFro
2017-09-05 14:56:40 763
原创 根据业务需求对饿了么数据进行数据清洗(三)
一、明确业务需求统计商家所有商品的平均评分作为该商店的评分,取出分数最高的前三十商家。(有效数据不包括月售量小于10、评分为0的)二、进行MapReduce清洗package com.yc.elm.utils;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.ap
2017-09-05 14:26:26 918
原创 解析Json格式的饿了么数据(二)
推荐使用在线格式化工具:http://tool.oschina.net/codeformat/json将获取的json数据格式化找出我们需要的字段信息,在java中写出实体类,注意属性的类型。写出实体类商家类:public class Shop { private Integer id; //店铺ID private String name; //店铺名称 pr
2017-08-30 10:20:17 2540 1
原创 使用Nexus搭建Maven私服
Maven官网地址:http://maven.apache.org/download.cgiNexus官网地址:https://www.sonatype.com/download-oss-sonatype准备好maven 和 nexus我这里使用 apache-maven-3.3.9-bin.zip 和
2017-08-27 11:37:10 415
转载 Java Adapter 适配器模式
适配器模式就是把一个类的接口转换成客户端所期待的另外一种接口,从而使原接口不匹配而无法在一起工作的的两个类能在一起工作。从功能上说,这些接口不兼容的类一般具有相同或相似的功能。通常我们通过修改该类的接口来解决这种接口不兼容的情形,但是如果我们不愿意为了一个应用而修改各原接口,或者我们压根儿就没有对象的源代码的时候,适配器模式就会派上用场了。一、适配器的优点1、将目标类和适配者类解耦
2017-08-15 11:47:41 344
原创 ArrayList(二)线程不安全详解
一、线程安全与线程不安全线程安全就是多线程访问时,采用了加锁机制,当一个线程访问该类的某个数据时进行保护,其他线程不能进行访问,直到该线程读取完,其他线程才可使用。不会出现数据不一致或者数据污染。线程不安全就是不提供数据访问保护,有可能出现多个线程先后更改数据造成所得到的数据是脏数据。二、线程不安全实例package com.yc.testArrayList;import ja
2017-08-12 20:04:41 530
转载 Zookeeper(六)应用实例
6.1 JAVA API客户端要连接 Zookeeper服务器可以通过创建 org.apache.zookeeper.ZooKeeper 的一个实例对象,然后调用这个类提供的接口来和服务器交互。ZooKeeper 主要是用来维护和监控一个目录节点树中存储的数据的状态,所有我们能够操作 ZooKeeper 和操作目录节点树大体一样,如创建一个目录节点,给某个目录节点设置数据,获取某个目录
2017-08-07 16:49:41 1073
原创 Zookeeper(五)集群管理
在一台机器上运营一个Zookeeper实例称之为单机模式(Standalone)。单机模式的缺陷是一旦唯一的实例挂掉了,依赖Zookeeper的应用就都用不了了。在实际应用中,一般都是采用集群模式来部署Zookeeper,集群中的server为奇数(2n+1)。只要集群中的多数(大于n+1台)Server活着,集群就能对外提供服务。在每台机器上部署一个Zookeeper实例,多台机器组成集
2017-08-02 09:26:57 657
转载 Zookeeper(四)配置与命令
4.1 配置文件ZooKeeper安装好之后,在安装目录的conf文件夹下可以找到一个名为“zoo_sample.cfg”的文件,是ZooKeeper配置文件的模板。ZooKeeper启动时,会默认加载“conf/zoo.cfg”作为配置文件,所以需要将“zoo_sample.cfg”复制一份,命名为“zoo.cfg”,然后根据需要设定里面的配置项。配置项很简单,说明如下:ti
2017-07-29 20:24:19 608
转载 Zookeeper(三)工作原理
3.1 系统架构由上图可知,ZooKeeper集群由多台机器组成,客户端的请求有可能被分配给任何一台机器来处理。考虑下面一个场景:客户端A问机器1,现在几点了,机器1回答下午两点半;与此同时,客户端B问机器2,现在几点了,机器2说,凌晨三点。两个客户端一交流,发现驴唇不对马嘴,整个世界就乱了。可见,ZooKeeper集群时刻需要保持内部统一,无论客户端连接哪台机器,给出的响应应该保
2017-07-29 19:49:08 493
转载 Zookeeper(二)数据模型
Zookeeper 会维护一个具有层次关系的数据结构,它非常类似于一个标准的文件系统: 树形结构的每个节点都被称作 ZnodeZnode通过路径引用,如同Unix中的文件路径。路径必须是绝对路径,因此他们必须由斜杠字符来开头。除此以外,它们必须是唯一的,也就是说每一个路径只有一个表示,因此这些路径不能改变。在ZooKeeper中
2017-07-28 20:52:41 518
转载 Zookeeper(一)Zookeeper是什么?
一、Zookeeper产生背景当今是个分布式、集群、云计算等名词满天飞的时代。造成这种局面的一个重要因素就是,单一机器的处理能力已经不能满足我们的需求,不得不采用由多台机器组成的服务集群。服务集群对外提供服务的过程中,可以分解处理压力,在一定程度上打破性能瓶颈,并提高服务的可用性(不会因为一台机器宕机而造成服务不可用)。上图中有三台机器,每台机器跑同样的一个应用程序。然后我们将这三台机
2017-07-28 20:13:08 548
转载 java与javac版本不一致问题
【问题描述】设置了环境变量JAVA_HOME为jdk1.8.0_60的安装目录,并且在PATH变量中加入了%JAVA_HOME%\bin,但在Windows命令行下,执行java -version却显示: java version "1.8.0_60" 而执行javac -version显示: javac 1.7.0_51【原因分析】同时安装了j
2017-07-22 10:49:24 2157
原创 在Linux下搭建Hadoop分布式集群
【设置网络连接】首先我们要设置虚拟机NAT方式(自动分配IP地址)连接外网进行更新源的操作(具体操作见:)【安装Mysql】sudo apt install mysql-server验证是否安装成功mysql -uroot -pashow databases;exit【创建jar包存放目录】mkdir softwarecd ~/software【上传j
2017-07-11 20:51:50 649 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人