hadoop
文章平均质量分 67
twtbgn1984
这个作者很懒,什么都没留下…
展开
-
hadoop中设置同一组中所有用户都有权限操作
在hadoop中有时候会需要一个组中的多个用户都能够有权限操作,比如nutch和hadoop的结合中,一个nutch用户负责爬取,hadoop用户负责维护文件系统,那这时这2个用户都要有权限来操作hadoop的文件系统了,可以如下方法:方法一:bin/hadoop fs -chmod -R 774 /user将改变/user下面的所有文件为同组用户读写执行方法二:修改hdf...原创 2013-05-10 10:17:51 · 581 阅读 · 0 评论 -
mapreduce简单实现基于物品的协同过滤算法
现在进到各种电商网站都会在页面给你推荐一些物品,那么这些推荐的物品是怎么得出来的呢?这里介绍一种协同过滤算法:基于物品的协同过滤算法。简单的说,就是给用户推荐他之前买过且平分高的相似的物品。该算法的主要思想是:1. 建立物品的同现矩阵就是说按用户分组,找出每2个物品在多少用户中同时出现的次数。2. 建立用户对物品的评分矩阵每个用户对每个物品的评分3. 2个矩阵相...原创 2013-11-17 21:47:28 · 708 阅读 · 0 评论 -
namenode加载fsimge好edits
上篇说到了namenode启动过程中主要是加载fsimge,edits和接收datanode的block信息。这篇主要分析namenode加载fsimage和edits的整个过程。首先,了解一下fsimage和edits是存放什么信息的。在hdfs-default.xml中通过dfs.name.dir和dfs.name.edits.dir配置fsimage和edits的存放路径,默认的...原创 2013-11-15 15:36:22 · 258 阅读 · 0 评论 -
hadoop 1.0.4 fsimage 文件格式分析
本文转载自: http://abloz.com/2013/01/08/hadoop-1-0-4-fsimage-file-format.html fsimage文件存放在NameNode中,保存HDFS中文件的meta信息。fsimage和edits 文件格式是一样的。都是二进制存储。具有文件头,目录信息,文件信息。本文分析一下fsimage文件的格式。不同版本的fsimage文件格式...原创 2013-11-15 15:19:49 · 258 阅读 · 0 评论 -
hadoop dfs 启动过程
今天来看下hadoop dfs 的启动过程都做了些什么。启动hdfs的时候,一般都是使用命令./start-dfs.sh,那就从这个sh文件入手:"$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start namenode $nameStartOpt"$bin"/hadoop-daemons.sh --config $HADOOP_...原创 2013-11-08 17:40:06 · 503 阅读 · 0 评论 -
hadoop namenode format的作用
今天一同事问重启了hadoop集群后要不要format,我当时想也没想就说,不可以,不然数据都丢失了。后来仔细一想,不对,namenode format貌似不会影响datanode上面的数据,那么namenode format的作用是什么呢,通过代码来看一看吧。namenode format的类为 org.apache.hadoop.hdfs.server.namenode.NameNod...原创 2013-11-07 18:03:30 · 834 阅读 · 0 评论 -
自己编译 hadoop-eclipse-plugin-1.1.2.jar 并安装
网上下了一些 hadoop-eclipse-plugin-1.1.2.jar,都不太好用,插件没转上,于是自己ant编译一个jar,步骤如下:1. 修改${hadoop.root}/src/contrib目录的build-contrib.xml文件,添加eclipse路径和hadoop版本信息: <property name="eclipse.home" location=...原创 2013-05-23 10:45:46 · 113 阅读 · 0 评论 -
Hadoop运行mapred的时候报错: java.lang.ClassNotFoundException解决方法
在创建自定义的Mapper时候,编译正确,但上传到集群执行时出现错误:13/05/21 17:35:10 INFO mapred.JobClient: Task Id : attempt_201305192231_0005_m_000000_0, Status : FAILEDjava.lang.RuntimeException: java.lang.ClassNotFoundException...原创 2013-05-21 18:04:08 · 1003 阅读 · 0 评论 -
转载--Job的数据输入格式化器—InputFormat
Hadoop被设计用来处理海量数据,这种数据可以是结构化的,半结构化的,甚至是一些无结构化的文本数据(这些数据可能存储在HDFS文件中,也可能存放在DB中)。它处理数据的核心就是map-reduce模型,但是,无论是map还是reduce,它们的输入输出数据都是key-value对的形式,这种key-value对的形式我们可以看做是结构化的数据。同时,对于reduce的输入,当然就是map的...原创 2013-05-20 11:30:02 · 104 阅读 · 0 评论 -
eclipse中导入nutch源码更新
在前一篇eclipse中导入nutch源码后,发现运行的时候报出各种错误,这里重新记录安装步骤,并测试。安装前准备:eclipse svn插件eclipse ivy插件1. 打开eclipse, File-> New-> Other -> SVN -> 从SVN检出项目 , 选择next2. 创建新的资源位置 -》 Next ,URL输入 htt...原创 2013-05-13 18:01:58 · 101 阅读 · 0 评论 -
maven构建hadoop项目
在eclipse中用maven构建hadoop项目,能够非常方便的下载hadoop所依赖的jar包,而不需要自己一个个导入。1. 安装maven (略过)2. eclipse中配置maven (略过)3. 创建maven项目New -》 other -》 Maven -》 Maven project 点击next勾选 use default workspace l...原创 2013-10-31 10:17:04 · 141 阅读 · 0 评论