Hadoop
lviiii
这个作者很懒,什么都没留下…
展开
-
HBase之Java API
【题目描述】Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list.For example,Given 1->2->3->3->4->4->5, return 1->2->5转载 2014-11-21 09:04:49 · 693 阅读 · 0 评论 -
HDFS小文件合并问题的优化:copyMerge的改进
1.问题分析用fsck命令统计 查看HDFS上在某一天日志的大小,分块情况以及平均的块大小,即分析问题的存在性:从表中可以看出,每天日志量的分块情况:总共大概有268左右的块数,平均块大小为36MB左右,远远不足128MB,这潜在的说明了一个问题。日志产生了很多小文件,大多数都不足128M,严重影响集群的扩展性和性能:首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大原创 2015-01-13 18:48:26 · 7074 阅读 · 0 评论 -
集群扩展:Hadoop环境搭建
hadoop安装步骤:系统需要安装的包 ssh,rpm,gcc,make yum -y install openssh-server openssh-clients检测ssh安装和rpm安装 a. ssh localhost b. yum install rpm 安装java a. 安装java-7 rpm -Uvh javab. 添加并配置新的jdk系统命令update-alt原创 2015-02-28 11:23:44 · 1038 阅读 · 0 评论 -
MapReduce原理与设计思想
一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapReduce合并了两种经典函数:映射(Mapping)对集合里的每个目标应用同一个转载 2015-03-12 20:07:35 · 668 阅读 · 1 评论 -
微博广告推荐中有关Hadoop的那些事
一、背景 微博,一个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提高信息传播速度,就成了重中之重。因此,我们引入了hadoop 分布式计算平台,对用户数据和内容数据进行分析和挖掘,作为广告推荐的基础。 二、问题及解决方案 在hadoop平台上进行开发时,主要遇到转载 2015-04-28 09:18:10 · 617 阅读 · 0 评论