使用hadoop做单词统计

最新推荐文章于 2024-05-11 20:28:02 发布

wukong_1

最新推荐文章于 2024-05-11 20:28:02 发布

阅读量808

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sbjiesbjie/article/details/80955301

版权

本文介绍了如何使用Hadoop进行单词统计，包括编写mapper函数、执行脚本和命令脚本的步骤，并展示了执行结果的查看方式。

摘要由CSDN通过智能技术生成

1.编写mapper函数

mapper.py

import sys


for line in sys.stdin:
        word_line = line.strip().split(' ')
        for word in word_line:
                print '\t'.join([word.strip(), '1'])

2.编写执行脚本

import sys


cur_word = ''
cur_count = 0

for line in sys.stdin:
        wdline = line.strip().split('\t')
        if len(wdline) != 2:
                continue

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用hadoop做单词统计

1.编写mapper函数mapper.pyimport sysfor line in sys.stdin: word_line = line.strip().split(' ') for word in word_line: print '\t'.join([word.strip(), '1'])2.编写执行...
复制链接

扫一扫

wukong_1 CSDN认证博客专家 CSDN认证企业博客

码龄13年

57: 原创

20万+: 周排名

87万+: 总排名

11万+: 访问

: 等级

1670: 积分

6: 粉丝

10: 获赞

2: 评论

52: 收藏

私信

关注

热门文章

分类专栏

最新评论

Out of memory: Kill process 问题
pan_深度学习: 我的评论呢？这句话 “根据每个进程的oom_score选出来了18872，kill掉了，18872进程并没有占用大量内存，也没有其他进程占用超过600M的物理内存，只是整个系统的物理内存(4G)不够用导致了，占用最大的进程被杀死了“ 物理内存4G是怎么看出来的，打印中有显示吗？
Out of memory: Kill process 问题
pan_深度学习: 根据每个进程的oom_score选出来了18872，kill掉了，18872进程并没有占用大量内存，也没有其他进程占用超过600M的物理内存，只是整个系统的物理内存(4G)不够用导致了，占用最大的进程被杀死了；这句话中物理内存(4g）是怎么看出来的？打印中有显示出吗？
Out of memory: Kill process 问题
pan_深度学习: 根据每个进程的oom_score选出来了18872，kill掉了，18872进程并没有占用大量内存，也没有其他进程占用超过600M的物理内存，只是整个系统的物理内存(4G)不够用导致了，占用最大的进程被杀死了；这句话中物理内存(4g）是怎么看出来的？打印中有显示出吗？
redis源码阅读（一）：开始
滕柳: 一种阅读源码的方法
Spring(三）：使用java config配置spring mvc
只玩三国的程序猿: 博主你这个就是spring in action的内容啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。