hadoop
文章平均质量分 88
dragon_fire
这个作者很懒,什么都没留下…
展开
-
hadoop 上运行java程序
1、借助eclipse在eclipse下面搭建Hadoop开发环境的相关问题及其解决详见http://www.linuxidc.com/Linux/2012-02/54597.htm有一个问题是:好像通过eclipse提交的程序并没有在集群上执行,而是在本机上执行了。2、在命令下运行首先需要将程序打成jar包,我用的eclipse写程序,也就用eclipse打包了,如果工程中包含第转载 2012-11-28 16:22:59 · 886 阅读 · 0 评论 -
java 实现pagerank
倒排索引解决的是如何有效的搜索包含某一关键字的网页,PageRank就是如何计算这些网页的价值。PageRank的计算是根据网页的链接计算的。若有现假设有A,B,C,D,E五个网页,其中 1)A网页有链接指向B,C,D 2)B网页有链接指向A,E 3)C网页有链接指向A,E 4)D网页有链接指向C 5)E网页有链接指向A,C 其关系如下:根据此图可得原创 2013-04-27 16:43:03 · 854 阅读 · 0 评论 -
Hadoop中一个distcp
hadoop中有一个叫做distcp(分布式复制)的有用程序,能从hadoop的文件系统并行复制大量数据。distcp一般用于在两个HDFS集群中传输数据。如果集群在hadoop的同一版本上运行,就适合使用hdfs方案: % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 这将从第一个集群中复制/foo目录(和转载 2013-04-20 13:19:16 · 1008 阅读 · 0 评论 -
hadoop 内存优化
1.hadoop-env.sh:该文件用来配置hadoop所需的特殊环境变量:JAVA与HADOOP环境变量的设置(如果在~/.bash_profile中设置了环境变量,这里可以不进行配置)export JAVA_HOME=/home/admin/deploy/java6export HADOOP_HOME=/home/admin/deploy/hadoop-0.20.原创 2013-04-02 09:52:25 · 6219 阅读 · 0 评论 -
基于Eclipse的Hadoop开发环境配置方法
第一步:在Eclipse上安装Hadoop插件找到hadoop的安装路径,我的是hadoop-0.20.2,将hadoop根目录下的 /contrib/eclipse-plugin/下的hadoop-0.20.2- eclipse-plugin.jar拷贝到eclipse安装目录下的plugins里。然后重启eclipse,点击主菜单上的window-->preferences,在左边栏中原创 2012-11-23 17:02:38 · 508 阅读 · 0 评论 -
安装eclipse插件后,run on hadoop没有反映的解决办法
安装eclipse插件后,run on hadoop没有反映的原因是:hadoop-0.20.0下自带的eclise插件已过时。解决方案:1、下载正确的插件:https://issues.apache.org/jira/secure/attachment/12460491/hadoop-eclipse-plugin-0.20.3-SNAPSHOT.jar2、重命名:转载 2013-03-20 17:56:59 · 653 阅读 · 0 评论 -
HADOOP基本操作命令
在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。启动与关闭启动HADOOP1. 进入HADOOP_HOME目录。2. 执行sh bin/start-all.sh关闭HADOOP1.转载 2013-03-17 03:19:03 · 596 阅读 · 0 评论 -
Hadoop状态页面的Browse the filesystem链接无效的问题
这个问题在网上找了很多,就大致总结了一下:是这样的:如果如下图,browseDirectory.jsp页面不存在 ,那么可能是datanode没有启动成功然后我们检查如果 live nodes 为0 ,然后上边也是0blocks 那么基本我们可以试着重启一下 datanodebin/Hadoop-daemon.sh start DataNode [h原创 2013-03-16 18:49:10 · 3405 阅读 · 1 评论 -
cywin 下jps command not found
今天在cywin下查看进程,使用命令jps,可是却提示找不到命令,这条命令是在jdk下的bin目录下的一个可执行文件,我查看了一下我的jdk目录,发现有jps可执行文件,但是只是没有放在环境变量里面而已,环境变量可以通过etho $PATH命令查看。所以就要自己加上去,以ssh身份vi /etc/profile,然后在下面加一行PATH="/cygdrive/c/java_jdk1.7转载 2013-03-16 15:52:17 · 839 阅读 · 0 评论 -
Hadoop 集群运行测试代码(Hadoop 权威指南天气数据示例)
转自 http://blog.csdn.net/lmc_wy/article/details/6053580今天将Hadoop 权威指南天气数据示例代码在hadoop集群上跑通,记录一下。之前在百度/Google上怎么也没有找到怎么样将自己的Map-Reduce方法跑在集群上的每一步都具体描述,经过一番痛苦的无头苍蝇式的摸索,成功了,心情不错... 1准备天气预报数据(权威指南上的转载 2012-11-24 14:25:09 · 524 阅读 · 0 评论 -
The Hadoop Distributed File System
3. The Hadoop Distributed File System 3.1. The Design of HDFS HDFS设计的针对对象:适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。 HDFS不足: 低延迟数据访问(Hbase是个好选择)、小文件多的时候出现问题(HDFS将文件Meta信息存储在内存中,内存限制了可以控制的文件数量)、对文件的多个wirter转载 2012-11-28 13:06:09 · 525 阅读 · 0 评论 -
验证hadoop 回收站功能
验证回收站功能。首先设置打开回收站功能,然后测试删除某些文件,观察回收站目录所在及其变化,然后进行恢复。将实验过程抓图 hadoop回收站功能是保证将删除的文件写到指定的Trash目录下,默认情况下这个设置是关闭的。可以从core-default.xml里找到相关参数 property>转载 2013-05-20 08:16:42 · 629 阅读 · 0 评论