__hadoop实战
冥想者-定
缘起性空
展开
-
当前几个主要的Lucene中文分词器的比较
1. 基本介绍:paoding :Lucene中文分词“庖丁解牛” Paoding Analysisimdict :imdict智能词典所采用的智能中文分词程序mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式 2. 开发者及开发活跃度:转载 2015-03-17 09:38:13 · 380 阅读 · 0 评论 -
Hadoop QuickStart VM
http://blog.csdn.net/zqhxuyuan/article/details/43196841Cloudera-Quickstart-VM-5.3.0下载包: http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html 打开终端, 默认是clo转载 2015-09-16 20:00:30 · 769 阅读 · 0 评论 -
使用cloudera-quickstart-vm无配置快速部署Hadoop应用
http://zzj270919.blog.163.com/blog/static/68997776201522561659999/目录:通过CDH网站下载cloudera-vm镜像使用VirtualBox启动虚拟机测试与使用 系统环境:Oracle VM VirtualBox 64bit 主机。1.通过CDH网站下载cloudera-vm镜像转载 2015-09-17 13:56:59 · 6492 阅读 · 0 评论 -
Hadoop WritableComparable接口
hadoop WritableComparable接口的作用, 两个作用 A 实现了一个序列化协议 B 可以比较的实现,实现方法compareTo()方法, MapReduce中所有的key值类型都必须实现这个接口,避免重复的key啊==================================================转载 2015-09-14 17:37:27 · 561 阅读 · 0 评论 -
使用ToolRunner运行Hadoop程序基本原理分析
为了简化命令行方式运行作业,Hadoop自带了一些辅助类。GenericOptionsParser是一个类,用来解释常用的Hadoop命令行选项,并根据需要,为Configuration对象设置相应的取值。通常不直接使用GenericOptionsParser,更方便的方式是:实现Tool接口,通过ToolRunner来运行应用程序,ToolRunner内部调用GenericOptionsPars转载 2015-09-14 16:21:11 · 648 阅读 · 0 评论 -
hadoop源码解析2 - conf包中Configuration.java解析
http://my.oschina.net/mkh/blog/3124551 Hadoop Configuration简介 Hadoop没有使用java.util.Properties管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,并提供自己的API,即转载 2015-09-14 13:45:08 · 393 阅读 · 0 评论 -
Shuffle和排序
MR确保每个reduce 的输入都是按键排序的,系统执行排序的过程(即map输出作为输入传给reduce)称为shuffle,,shuffle术语不断被优化和改进的代码库的一部分,从许多方面来看, shuffle是MR的心脏, 是奇迹发生的地方。1、map端 map函数开始产生输出时, 并不是简单的将它写到磁盘, 这个过程 更加复杂,他利用缓冲的方式 写到内存中并处于效率转载 2015-09-28 15:08:27 · 661 阅读 · 0 评论 -
MR的调优
map端调优io.sort.mb int 100 排序map输出时所使用的内存缓冲区的大小io.sort.record.percent float0.05 用作存储map输出记录边界的io.sort.mv的比例,神域的空间用来存储map输出记录本身, 1.0版本后删除该属性io.sort.spill.percent float0.8转载 2015-09-28 16:12:55 · 1251 阅读 · 0 评论 -
hadoop fs -getmerge命令的使用
假设在你的hdfs集群上有一个/user/hadoop/output目录里面有作业执行的结果(多个文件组成)part-000000,part-000001,part-000002然后你想把所有的文件合拢来一起看 可以使用命令:hadoop fs -getmerge /user/hadoop/output local_file然后就可以在本地使用vi loca转载 2015-05-10 18:22:29 · 24358 阅读 · 0 评论 -
hadoop集群上面安装 spark 1.1.0
hadoop2.4.1集群安装spark1.1.0 [复制链接] desehawk454主题919帖子5058积分实习版主积分5058收听TA发消转载 2015-04-26 11:41:58 · 715 阅读 · 0 评论 -
tail -f 多次grep过滤输出
tail -f 多次grep过滤输出对日志记录做多次grep过滤输出,格式如下:tail -f log | grep xxx | grep yyy发现grep失效,无法做正确输出。google研究了一下,原因如下:管道 | 是全缓冲的,一般来说buffer_size为4096,有些是8192。不管具体值多少,只有buffer_size满了,才会看到输出。在操作里转载 2015-03-29 04:33:40 · 6683 阅读 · 0 评论 -
hadoop 权威指南【第三版】
1、数据本地化(data locality)特性是MapReduce的核心特征2、MapReduce设计的三大目标A :为只需要短短几分钟或者几个小时就可以完成的任务提供服务 B: 运行于同一个内部有高速网络连接的数据中心内。 C :数据中心内的计算机都是可靠的,定制的硬件。原创 2015-09-21 16:25:50 · 681 阅读 · 0 评论