大数据实战
文章平均质量分 91
Leon1895
这个作者很懒,什么都没留下…
展开
-
自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫
自己动手搭建一个基于Hadoop的离线分析系统原创 2018-12-23 14:39:20 · 1392 阅读 · 4 评论 -
自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS
自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之一——网络爬虫》文章中介绍了整个系统的数据来源,这一篇文章从HDFS入手,介绍整个离线分析系统的数据存储。一、脚本处理流程 爬取到的数据信息往往非常庞大,以至于单靠一台存储设备不能完整的保存下来,这时就可以使用分布式文件系统(HDFS)来解决这个问题,我们...原创 2018-12-24 20:12:06 · 430 阅读 · 0 评论 -
自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive
自己动手搭建一个简单的基于Hadoop的离线分析系统之三——hive在上一篇《自己动手搭建一个简单的基于Hadoop的离线分析系统之二——HDFS》文章中介绍了整个系统的数据存储,这一篇文章从hive入手,介绍整个离线分析系统的数据分析。一、hive与MySQL 二、sql脚本--切换数据库use ${hiveconf:database_name};--创建表并导入数据cre...原创 2018-12-25 20:37:37 · 709 阅读 · 0 评论 -
MapReduce中Shuffle机制的学习案例——房屋租赁信息
MapReduce中Shuffle机制的学习案例——房屋租赁信息由于在《自己动手搭建一个简单的基于Hadoop的离线分析系统》系列中直接将清洗后的数据导入Hive中进行分析,没有使用到Hadoop中的MapReduce框架,因此这篇文章将通过该框架对输入数据进行清洗,并对清洗后的数据经行分析,数据源仍来源于同一网站的网络爬虫。Hadoop版本:2.6.5Shuffle机制...原创 2019-03-24 12:09:22 · 480 阅读 · 0 评论