利用hadoop的partition将数据打散

最新推荐文章于 2022-09-22 16:16:27 发布

小飞_侠

最新推荐文章于 2022-09-22 16:16:27 发布

阅读量2.5k

点赞数

分类专栏： hadoop 文章标签： hadoop partition 海量数据打散

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a6210575/article/details/24104841

版权

1、应用场景介绍

在日志统计分析的过程中，我们不仅需要对数据进行排序处理，而且还需要对数据进行打散处理。特别是在对海量url进行抓取的时候，由于海量url中同一站点下的url比较多，这样为我们抓取造成困难，因此，需要将url进行打撒处理，使得url尽量的分散开。

由于map-reduce的核心就是sort，该框架会将相同的key在reduce中处理，因此，我这里利用partition对key进行重新分区，使得相同的key分散到不同的reduce中，这样就可以将数据打散。

2、partition介绍

这里先简单介绍下partition。Hadoop中为我们提供了以下几种partition：

（1）Partitioner是partitioner的基类，如果需要定制partitioner也需要继承该类。（我这里采用这种方法实现打散）

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小飞_侠 CSDN认证博客专家 CSDN认证企业博客

码龄17年

27: 原创

25万+: 周排名

219万+: 总排名

9万+: 访问

: 等级

1035: 积分

21: 粉丝

9: 获赞

6: 评论

21: 收藏

私信

关注

热门文章

分类专栏

linux 3篇
hadoop 7篇
用户行为 1篇
推荐 1篇
topic model 2篇
python 1篇
spark 21篇
spark应用 1篇

最新评论

基于用户行为分析建立用户偏好模型
大数据小白菜: 图片去哪里
基于用户行为分析建立用户偏好模型
weixin_42183351: 图片看不到，可以在哪里看带图的文章吗
【Spark Java API】broadcast、accumulator
xuhui340823: 您好，我看了您2011年的一个帖子，C#winform界面开辟多个线程调用C++dll中某个函数，我现在遇到了与您类似的问题：想要在C#winform（UI界面为主线程）中开辟一个线程调用C++dll中某个函数，功能是对大文件进行读写，有这个想法，但不知道怎么实施，已经困惑很久了，希望能得到您的回复
基于用户行为分析建立用户偏好模型
八嘎虎: 图，没了楼主
linux下python安装 nose lapack atlas numpy scipy sklearn
u011012471: ../configure -b 32 -Fa alg -fPIC -shared -prefix=/配置atlas的安装路径/ATLAS --with-netlib-lapack-tarfile=/lapack安装压缩文件存放的目录/lapack-3.5.0.tgz 这块， -shared改成 --shared（否则报错）； -prefix改成 --prefix，否则仍安装在默认路径。这是我遇到的情况。谢谢博主分享，赞！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。