hadoop
文章平均质量分 70
潇洒子弦
这个作者很懒,什么都没留下…
展开
-
MapReduce实现矩阵相乘
矩阵相乘可以查看百度百科的解释http://baike.baidu.com/view/2455255.htm?fr=aladdin有a和b两个矩阵a: 1 2 3 4 5 0 7 8 9 10 11 12b:原创 2014-06-15 16:40:50 · 1879 阅读 · 0 评论 -
MapReduce中Map数量的控制
InputFormat这个类是用来处理Map的输入数据的,任务开始时,InputFormat先将HDFS里所有输入文件里的数据分割成逻辑上的InputSpilt对象这里的split是HDFS中block的部分或者一整块或几个快中的数据的逻辑分割,一个split对应于一个Map,所以Map的数量是由split的数量决定的。那么怎样去确定InputSpilt的个数呢,下面列出于split个原创 2014-07-25 10:11:09 · 2163 阅读 · 0 评论 -
hadoop实现购物商城推荐系统
1,商城:是单商家,多买家的商城系统。数据库是mysql,语言java。2,sqoop1.9.33:在mysql和hadoop中交换数据。3,hadoop2.2.0:这里用于练习的是伪分布模式。4,完成内容:喜欢该商品的人还喜欢,相同购物喜好的好友推荐。步骤:1,通过sqoop从mysql中将 “用户收藏商品” (这里用的是用户收藏商品信息表作为推荐系统业务上的依据,业务依原创 2014-06-17 20:51:50 · 9830 阅读 · 5 评论 -
什么场景下用Hbase
Hbase适用于存储不太复杂但数据很大的数据。列如商城系统中:用户,商品,订单,店铺,卖家,这些数据关系复杂不适合用Hbase。这里面订单数据量很大,而且要频繁拿出来计算,可以考虑只将订单这项存入Hbase。其他方面:1,数据量达到上亿以上时可以使用Hbase如果只有上千或上百万行,则用传统的RDBMS。2,不依赖所有RDBMS的额外特性(列数据类型, 第二索引, 事物,高级查询语言等.)原创 2014-07-11 12:12:16 · 1682 阅读 · 0 评论 -
MapReduce的Kmeans聚类算法
最近在网上查看用MapReduce实现的Kmeans算法,例子是不错,http://blog.csdn.net/jshayzf/article/details/22739063但注释太少了,而且参数太多,如果新手学习的话不太好理解。所以自己按照个人的理解写了一个简单的例子并添加了详细的注释。大致的步骤是:1,Map每读取一条数据就与中心做对比,求出该条记录对应的中心,然后以中心的ID为原创 2014-05-23 19:05:44 · 2557 阅读 · 0 评论 -
MapReduce的TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。一,统计词频package TopK;import java.io.IOException;import java.util原创 2014-05-20 16:17:36 · 4090 阅读 · 0 评论 -
MapReduceTopK TreeMap
MapReduce TopK统计加排序中介绍的TopK在mapreduce的实现。本案例省略的上面案例中的Sort步骤,改用TreeMap来实现获取前K个词package TopK1;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configurat原创 2014-06-22 13:28:04 · 2180 阅读 · 0 评论