![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 56
partynew
这个作者很懒,什么都没留下…
展开
-
Hadoop使用CombineFileInputFormat处理大量小文件接口实现(Hadoop-1.0.4)
Configuration设置块大小64M Configuration conf = new Configuration(); conf.setLong(MyCombineFileInputFormat.SPLIT_MINSIZE_PERNODE, 64 * 1024 * 1024); conf.setLong(MyCombineFileInputFormat.SPLIT_MINSIZE原创 2013-05-28 17:23:56 · 4148 阅读 · 0 评论 -
Hadoop中使用正则匹配的效率问题
正则表达式一直以来都是比较难掌握的,并且正则匹配的效率一直不高,特别是java语言。 大数据还没来之前,正则匹配的效率问题还不算程序的大问题。 正则匹配比较常用与URL的匹配,正巧网络流量日志是典型大数据文件。 当大数据遇上正则匹配,抓狂的事情就发生了,效率极低。 笔者做了一个简单的测试,对比了最简单的正则匹配(直接匹配某个字符串,没有任何通配符)和String的indexOf方法的效率原创 2013-05-30 19:03:48 · 2362 阅读 · 1 评论