MapReduce
敲代码的余文乐
热爱编程,同样热爱分享
展开
-
利用MapReduce统计文章中汉字的个数(正则表达式的使用)
写了一个简单的MapReduce程序,主要目的是想记录一下正则表达式的使用注意事项:需要传入两个参数,参数1为输入文件路径,参数2为输出路径 为方便测试MapReduce,避免经常修改代码并打包上传,可以搭建Windows版本的Hadoop环境 需要创建Maven工程 需要注意输入文件的编码格式,建议利用记事本更改为UTF-8,避免乱码代码如下package com.orac...原创 2019-07-24 17:36:00 · 1580 阅读 · 0 评论 -
最近编写MapReduce时的小问题
注解重写方法时一定要写:早上调试MapReduce程序时发现Reducer不执行,在排查代码后,发现Reducer类中的reduce方法被我写成了reducer,所以相当于重新创建了一个方法而没有重写父类方法,没有写注解所以没有发现,以后要注意写注解。静态内部类的static关键字注意不能忘了写:前几天编写Mapreduce程序时,由于主方法和Mapper类、Reducer类封装在了一...原创 2019-07-30 10:18:00 · 200 阅读 · 0 评论 -
MapReduce中join业务
对两份数据data1和data2进行关键词连接(Join)是一个很通用的问题。如果数据量比较小,数据连接(Join)的操作可以在内存中完成,但如果数据量比较大,在内存中进行数据连接操作就会存在OOM(OutOfMemery)问题。针对这种情况,我们也可以考虑利用Mapreduce解决大数据的连接(Join)问题。源数据商品信息product示例表头pid pnamepd...原创 2019-07-31 10:45:00 · 258 阅读 · 0 评论