Hadoop（三）大数据离线计算与实时计算

最新推荐文章于 2024-03-22 20:20:53 发布

DavidBigHero

最新推荐文章于 2024-03-22 20:20:53 发布

阅读量1.6w

点赞数 2

分类专栏： ★Java天堂 ★架构 ---------【Hadoop】文章标签：离线计算实时计算

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qwlzxx/article/details/71218125

版权

★Java天堂同时被 3 个专栏收录

60 篇文章 1 订阅

订阅专栏

41 篇文章 0 订阅

订阅专栏

---------【Hadoop】

3 篇文章 1 订阅

订阅专栏

一、大数据离线计算：MapReduce计算模型

1、MapReduce是处理HDFS上的数据

2、MapReduce的思想来源是PageRank（搜索排名），原理是进行分布式计算。

如上图，网页跳转中，访问网页3的次数最多，也就是权重最大的为网页3。比如京东、淘宝中给推荐的商品，就是近期访问的比较多的商品。

MapReduce的思想是把一个大任务拆分成多个小任务，再把小任务的结果汇总，得到最后的结果。

3、数据都是历史数据、数据已经存在（HDFS）

二、大数据实时计算：Apache Storm

1、特点：数据源源不断地产生，不停处理数据

2、例子：自来水厂

3、框架：Apache Storm、Spark Streaming

4、格式：storm jar jar文件任务的类名任务的别名

storm jar storm-starter-topologies-1.0.3.jar.jar org.apache.storm.starter.WordCountTopology MyWC

三、搭建Hadoop的Eclipse开发环境（不推荐）

1、配置Hadoop Home

2、hadoop.dll复制到c:\windows\system32

3、配置环境变量

HADOOP_HOME

%HADOOP_HOME%/bin配置到PATH里

4、推荐：MRUnit（MapReduce Unit），类似Junit

小结

对Hadoop的认识只停留在理论上，更多的操作在精力和时间的允许下有待实践。

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
9
评论
Hadoop（三）大数据离线计算与实时计算

一、大数据离线计算：MapReduce计算模型1、MapReduce是处理HDFS上的数据2、MapReduce的思想来源是PageRank（搜索排名），原理是进行分布式计算。如上图，网页跳转中，访问网页3的次数最多，也就是权重最大的为网页3。比如京东、淘宝中给推荐的商品，就是近期访问的比较多的商品。MapReduce的思想是把一个大任务拆分成多个小任务，再把小任务的结果汇
复制链接

扫一扫

专栏目录

评论 9

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。