- 博客(5)
- 资源 (2)
- 收藏
- 关注
原创 hadoop分布式缓存
分布式缓存一个最重要的应用就是在进行join操作的时候,如果一个表很大,另一个表很小很小,我们就可以将这个小表进行广播处理,即每个计算节点上都存一份,然后进行map端的连接操作,经过我的实验验证,这种情况下处理效率大大高于一般的reduce端join,广播处理就运用到了分布式缓存的技术。DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前,文件在每个
2014-01-21 23:28:59 1502
原创 python 访问hbase
通过thrift,我们可以使用python访问hbase。关于thriftthrift是一个跨语言服务的软件开发框架(Thrift is a software framework for scalable cross-language services development.)。它的官方网站是:http://incubator.apache.org/thrift/
2014-01-16 11:12:51 1063
转载 K-means聚类算法(非MapReduce实现)
K-means聚类算法援引:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006910.html1.概念 k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“
2014-01-13 17:46:55 647
转载 K-最邻近算法
1.基本介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所
2014-01-13 17:45:29 1290
转载 Linux 有趣命令
1. sl 命令sl是指“steam locomotive(蒸汽机车)”,你会看到一辆火车从屏幕右边开往左边。。。。。。安装 $ sudo apt-get install sl 运行 $ sl可以通过设置别名,给别人来个恶作剧,让ta敲ls就跑出个火车出来,不知道的肯定很有效果 O(∩_∩)O$alias ls=sl2. fortune 命令输出一
2014-01-02 18:26:03 681
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人