2014年04月_Flood_Dragon

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 MapReduce的Shuffle阶段

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在

2014-04-30 11:57:17 711

转载 MapReduce 全排序

转自:http://zxxapple.iteye.com/blog/1405502关于全排序的问题 Tom White的书中提出的数据取样方法，最近学习了一下，下面做个比较，以防后患！！主要思想就是在要排序的所有数据中随机取出一定量的数据，这些数据取自三个部分，1. 选取总得数据 ( 键值对 ) 数目2. 选取的 split 数目3. 每个 split 选取的键

2014-04-30 09:56:49 672

转载使用IKAnalyzer进行中文分词

在不需要标注词性的情况下，IKAnalyzer这个工具能实现较好的分词效果。下载地址：https://code.google.com/p/ik-analyzer/下载下来以后能看到有个pdf文档告诉该如何使用，不过作者貌似没有提到需要用到lucene包，这个jar包可以从这里下载：http://grepcode.com/snapshot/repo1.maven.org/maven2/org

2014-04-17 11:28:09 1650 1

转载 Ubuntu下MySQL的安装及远程连接配置等配置

一、Ubuntu下MySQL的安装在Ubuntu命令行下输入 sudo apt-get install mysql-server 即可安装mysql服务，默认在安装mysql-server时，会自动安装好mysql-client。同时安装好的mysql配置文件位置：/etc/mysql/my.cnf启动mysql的快捷图标为：/etc/init.d/mysql二、编

2014-04-11 15:41:58 576

转载 hadoop 自定义inputformat和outputformat

http://blackproof.iteye.com/blog/1hadoop的inputformat和outputformat 最好的例子vertica ：虽然是在pig中实现的udf，但是就是hadoop的inputformat和outputformat，在hive里也可以照用，贴个下载的地址：http://blackproof.iteye.com/blog/

2014-04-04 17:22:31 639

转载 MapReduce与MySQL交互

apReduce与MySQL交互　　MapReduce技术推出后，曾遭到关系数据库研究者的挑剔和批评，认为MapReduce不具备有类似于关系数据库中的结构化数据存储和处理能力。为此，Google和MapReduce社区进行了很多努力。一方面，他们设计了类似于关系数据中结构化数据表的技术（Google的BigTable，Hadoop的HBase）提供一些粗粒度的结构化数据存储和处理能力；另

2014-04-04 13:40:00 759

转载使用Hadoop做K-Means计算的总结

以K均值聚类算法为实验对象。通过调整各项Hadoop参数，已经不能再进一步缩短K均值迭代的时间，在计算过程中，CPU User态的使用率始终维持在95%左右。尝试过的配置项有：mapred.min.split.sizeio.sort.mbio.sort.spill.percentio.sort.factormin.num.spill.

2014-04-04 11:58:10 769

转载 Hadoop MapTask/ReduceTask各阶段耗费时间的测试

io.block.size：64Mmapred.mapinput.min.splitsize：512Mio.sort.mb：512M每个maptask的输入为512M的数据，在每个maptask中，发生了3次spill缓存溢写。下面是通过日志统计出的各个细分阶段所用的时间：每个TaskTracker都使用一个队列保存JobTracker分发过来的

2014-04-04 11:47:39 1302

转载 hadoop添加节点和删除节点

转自：http://www.cnblogs.com/ggjucheng/archive/2012/04/22/2465625.html添加DataNode1.部署hadoop和普通的datanode一样。安装jdk，ssh2.修改host和普通的datanode一样。添加namenode的ip3.修改namenode的配置文件conf/slaves添

2014-04-04 11:35:27 639

转载 K-Means算法

在数据挖掘中，K-Means算法是一种cluster analysis的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。问题K-Means算法主要解决的问题如下图所示。我们可以看到，在图的左边有一些点，我们用肉眼可以看出来有四个点群，但是我们怎么通过计算机程序找出这几个点群来呢？于是就出现了我们的K-Means算法（Wikipedia链接）

2014-04-02 10:35:48 568