大数据
文章平均质量分 67
guduyishuai
这个作者很懒,什么都没留下…
展开
-
大数据系列hadoop——MapReduce实例——单词计数
目录 一、简介 二、思路 三、实现 一、简介 这个应该是mapReduce里面最简单,也是所有人写的第一个例子吧。 二、思路 map阶段,分词,把每个词作为key,value为1 reduce阶段,把每个词的value相加 三、实现 @Slf4j public clas...原创 2018-08-09 11:27:40 · 1019 阅读 · 0 评论 -
大数据系列hadoop——MapReduce实例——好友推荐
目录 一、简介 二、思路 三、实现 一、简介 好友推荐功能简单的说是这样一个需求,预测某两个人是否认识,并推荐为好友。 二、思路 某两个非好友的用户,他们的共同好友越多,那么他们越可能认识。 比如,原始数据如下 Tom Cat Hello Hadoop Spring Cat Hello Spring...原创 2018-08-09 11:52:01 · 4270 阅读 · 3 评论 -
大数据系列hive——安装
目录 一、简介 二、安装 三、配置 环境变量配置 hdfs初始化 xml配置 初始化数据库 一、简介 hive是数据仓库技术,针对主题的数据进行分析,为企业提供决策支持。它和数据库不同,不会产生任何数据,也不消费任何数据。它的特点是面向主题的,集成的,非易失的,时变的。 hive的元数据存储在关系型数据库上,可以是mysql...原创 2018-08-09 14:15:51 · 239 阅读 · 0 评论 -
大数据系列hive——配置mysql
目录 一、简介 二、mysql驱动 三、配置 四、初始化数据库 一、简介 hive默认的元数据信息是存在derby中的,但是derby只支持单机,所以需要更换到mysql中。 二、mysql驱动 将相应版本的mysql驱动拷贝到HIVE_HOME/lib目录下,比如mysql-connector-java-5.1.45.jar 三、配置 ...原创 2018-08-11 13:54:59 · 239 阅读 · 0 评论 -
大数据系列hadoop——开发环境配置
目录 简介 安装配置插件 环境变量 代码中的配置 core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml mapReduce 简介 一般来说,我们的hadoop部署在linux服务器上,我们在windows上用eclipse进行开发,所以我们要进行开发环境配置。 工具和版本号 ...原创 2018-08-07 17:06:40 · 652 阅读 · 0 评论 -
大数据系列hive——jdbc
目录 一、简介 二、HiveServer2 配置 启动 三、Beeline 四、错误处理 五、代码 一、简介 hive可以通过命令行执行hql,它也提供了相应的jdbc驱动,从而可以使用jdbc api进行代码的编写。 二、HiveServer2 hive的服务,只有开启了hiveServer2,客户端才能通过jdbc连接上hive 配置 ...原创 2018-08-15 09:57:07 · 1180 阅读 · 0 评论