Hadoop大数据处理流程

最新推荐文章于 2024-07-10 22:30:00 发布

超速前行

最新推荐文章于 2024-07-10 22:30:00 发布

阅读量4.2k

点赞数

文章标签： hadoop 数据集群分布式数据库

1、数据处理过程

对于典型的安装而言，Hadoop是整个数据流的中心。他的数据通常来源于很多分散的系统。这些数据被导入HDFS中，紧接着这些数据通过MapReduce进行处理或者通过一些建立于MapReduce之上的一些工具（例如Hive，Pig，Cascading等）进行处理。最后，经过过滤，转换，聚合的结果将被导出到外部系统。

列举一个更具体的例子，一个大的网站想对点击率进行数据分析。来源于几个服务器的日志被收集并且存入HDFS。一个MapReduce工作启动，前面被存入HDFS的网络日志数据作为输入，这些网络日志数据根据IP地址或者地理位置进行解析、归纳与组合。输出显示每个cookie的URL，页面和位置数据。这些信息将被导出到关系型数据库。一些专门的查询可以基于这些数据实施。分析师可以很快的产生所有的cookie，访问最多的页面，按照区域划分访问者，还有其他基于这些数据的归纳。

2、数据导入导出操作

在后续的章节中将给出以下常用的导入导出操作：

（1）通过Hadoop Shell命令进行导入导出操作

（2）在集群之间进行分布式拷贝，增加数据移动的效率

（3）使用Sqoop从MySQL中导入数据

（4）使用Sqoop将HDFS中数据导入MYSQL中

（5）为Microsoft SQL Server配置Sqoop

（6）将HDFS数据导出到MongoDB中

（7）将MongoDB中的数据导入到HDFS中

（8）使用Pig将HDFS中的数据导出到MongoDB中

（9）使用Flume将数据导入HDFS

3、资料

参考书籍：Hadoop Real-World Solutions Cookbook

随书代码及数据：Hadoop Real-World Solutions Cookbook（Data And source code）

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hadoop大数据处理流程

对于典型的安装而言，Hadoop是整个数据流的中心
复制链接

扫一扫

超速前行 CSDN认证博客专家 CSDN认证企业博客

码龄11年

22: 原创

17万+: 周排名

203万+: 总排名

28万+: 访问

: 等级

2382: 积分

42: 粉丝

70: 获赞

16: 评论

242: 收藏

私信

关注

热门文章

分类专栏

SLAM 3篇
Hadoop 8篇
Gradle 1篇
并发多线程 7篇
Hadoop2.3.0
Pig 1篇
hive 2篇
Spring AMQP 11篇
Scala 1篇
OpenCv 3篇
Netty In Action 8篇
教育 1篇
前端 2篇
Spring JMS
J2ee 1篇
配置管理 1篇
开源gis 1篇
C++ 13篇
gis 1篇
Visual Odometry 1篇

最新评论

Eigen Matrix 详解
野生蘑菇菌: m << 1, 2, 3, 4, 5, 6, 7, 8, 9; 博主，这里少了分号。
Eigen Matrix 详解
Neek_hua: 可以的，在我看来，取负意味着被取负的那个参数是动态的意思
Eigen Matrix 详解
Kingsleyandher: 你好，想请问您一个问题！就是Matrix参数里面可以取负数嘛？像下面这个样子的 Eigen::Matrix<float, -1, 2, Eigen::RowMajor>
c\c++中比较两个字符串或string对象是否相等
WmxL56: 但是有的人说， == 就是重载了compare这个函数，实际使用效果是一样的
Eigen Matrix 详解
小可story: 感谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。