需求:分析页面中是否包含关键字。并返回页面的路径地址及名称
首先:
上传文件至HDFS,这一步看上一篇已经OK的。
接下来要做的事情,不只是查询几个单词的事情了。
要做的事情:1.文件夹的读取。
2.页面内容的读取
3.匹配
4.写出
预测结果:可以实现,但周期较长。原因吗很简单,。还是务虚的概念问题,hadoop会为每一个文件生成一个map
升级版:1.文件块的合并(split)
2.页面内容的读取
3.匹配
4.写出
合并代码:CombineTextInputFormat.setMaxInputSplitSize(job, 60 * 1024 * 1024L); OK;