大数据
文章平均质量分 67
guduyishuai
这个作者很懒,什么都没留下…
展开
-
大数据系列hadoop——MapReduce实例——单词计数
目录一、简介二、思路三、实现一、简介 这个应该是mapReduce里面最简单,也是所有人写的第一个例子吧。二、思路 map阶段,分词,把每个词作为key,value为1 reduce阶段,把每个词的value相加三、实现 @Slf4jpublic clas...原创 2018-08-09 11:27:40 · 1020 阅读 · 0 评论 -
大数据系列hadoop——MapReduce实例——好友推荐
目录一、简介二、思路三、实现一、简介 好友推荐功能简单的说是这样一个需求,预测某两个人是否认识,并推荐为好友。二、思路 某两个非好友的用户,他们的共同好友越多,那么他们越可能认识。 比如,原始数据如下Tom Cat Hello Hadoop SpringCat Hello Spring...原创 2018-08-09 11:52:01 · 4270 阅读 · 3 评论 -
大数据系列hive——安装
目录一、简介二、安装三、配置 环境变量配置 hdfs初始化 xml配置 初始化数据库一、简介 hive是数据仓库技术,针对主题的数据进行分析,为企业提供决策支持。它和数据库不同,不会产生任何数据,也不消费任何数据。它的特点是面向主题的,集成的,非易失的,时变的。 hive的元数据存储在关系型数据库上,可以是mysql...原创 2018-08-09 14:15:51 · 239 阅读 · 0 评论 -
大数据系列hive——配置mysql
目录一、简介二、mysql驱动三、配置四、初始化数据库一、简介 hive默认的元数据信息是存在derby中的,但是derby只支持单机,所以需要更换到mysql中。二、mysql驱动 将相应版本的mysql驱动拷贝到HIVE_HOME/lib目录下,比如mysql-connector-java-5.1.45.jar三、配置 ...原创 2018-08-11 13:54:59 · 241 阅读 · 0 评论 -
大数据系列hadoop——开发环境配置
目录简介安装配置插件环境变量代码中的配置core-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlmapReduce简介 一般来说,我们的hadoop部署在linux服务器上,我们在windows上用eclipse进行开发,所以我们要进行开发环境配置。 工具和版本号 ...原创 2018-08-07 17:06:40 · 656 阅读 · 0 评论 -
大数据系列hive——jdbc
目录一、简介二、HiveServer2配置启动三、Beeline四、错误处理五、代码一、简介 hive可以通过命令行执行hql,它也提供了相应的jdbc驱动,从而可以使用jdbc api进行代码的编写。二、HiveServer2 hive的服务,只有开启了hiveServer2,客户端才能通过jdbc连接上hive 配置 ...原创 2018-08-15 09:57:07 · 1181 阅读 · 0 评论