Hadoop
CHEN_JP
这个作者很懒,什么都没留下…
展开
-
PageRank计算方法及java实现
倒排索引解决的是如何有效的搜索包含某一关键字的网页,PageRank就是如何计算这些网页的价值。PageRank的计算是根据网页的链接计算的。若有1,2,3,4号网页之间的链接关系如下:这里假设每个网页的权重相等,都为1,这个S矩阵是这样得出来的,第1列是1号网页,它指向了2,3,4号网页,它的权重为1,所以2,3,4每个获得的为1/3,这样依次类推。求解G的特征向量可以通原创 2012-08-24 19:19:29 · 14452 阅读 · 4 评论 -
hadoop分布式集群搭建
hadoop版本:hadoop-0.20.205.0-1.i386.rpm 下载地址:http://www.fayea.com/apache-mirror/hadoop/common/hadoop-0.20.205.0/jdk版本:jdk-6u35-linux-i586-rpm.bin 下载地址:http://www.oracle.com/technetwork/java/javas原创 2012-09-01 20:42:51 · 2522 阅读 · 0 评论 -
hadoop集群测试(单词计数)
Hadoop集群安装好后,可以测试hadoop的基本功能。hadoop自带了一个jar包(hadoop-examples-0.20.205.0.jar,不同版本最后不同)中wordcount程序可以测试统计单词的个数,先来体验一下再说。[hadoop@master ~]$ mkdir input #先创建一个输入目录[hadoop@master ~]$ cd input/[hadoop原创 2012-09-13 21:14:33 · 3421 阅读 · 0 评论 -
Hadoop集群作业调度算法
Hadoop集群中有三种作业调度算法,分别为FIFO,公平调度算法和计算能力调度算法先来先服务(FIFO)FIFO比较简单,hadoop中只有一个作业队列,被提交的作业按照先后顺序在作业队列中排队,新来的作业插入到队尾。一个作业运行完后,总是从队首取下一个作业运行。这种调度策略的优点是简单、易于实现,同时也减轻了jobtracker的负担。但是它的缺点也是显然的,它对所有的作业都一视同仁,原创 2012-09-15 21:04:42 · 6994 阅读 · 0 评论 -
hadoop集群启动过程模拟
hadoop启动会进过一个安全模式,安全模式有如下几个特点:安全模式下namenode收集各个datanode的报告,当数据块达到最小副本数(复制因子)以上时,会被认为是“安全”的 。在一定比例(可设置)的数据块被确定为“安全”后,再过若干时间,安全模式结束。当检测到副本数不足的数据块时,该块会被复制直到达到最小副本数 。程序使用Data类模拟数据块,Namenode类作为name原创 2012-09-14 19:33:45 · 3347 阅读 · 0 评论