hadoop第一天

最新推荐文章于 2024-06-25 09:38:17 发布

我在路上0317

最新推荐文章于 2024-06-25 09:38:17 发布

阅读量158

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32784541/article/details/79305822

版权

1：从网络上获得大量关键词，数据，使用Mapreduce进行筛选，分析

2：将这些原始数据全部存储在hdfs中，

3：用Mapeduce对这些原始数据进行处理，放到hbase数据库中，

Hadoop：

1，Mapreduce :分布式处理，每个数据集，进行逻辑业务处理（map阶段），合并统计数据结果（reduce），离线并行计算框架

2，Hdfs,存储海量数据，安全性（副本数）

3，yarn,分布式资源管理框架，管理整个集群的资源（内存，cpu核数），分配调度集群的资源。container,资源存储容器

4，common,公共基础资源，为其他模块提供基础设施，

历史服务器historyserver

查看已经运行完成的MapReduce作业记录，比如用了多少个Map,用了多少个Reduce，作业提交时间，作业启动时间，作业完成时间等信息。

**启动命令：sbin/mr-jobhistory-daemon.sh start historyserver.

**Web Ui: http://hostname:19888/

Yarn的日志聚集功能配置使用，Log Aggregation

聚集：应用程序完成之后，将日志信息上传到HDFS系统

我在路上0317

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。