Hadoop
Anald
这个作者很懒,什么都没留下…
展开
-
hadoop修改启动主机名
修改hadoop的主机名 cd /usr/mysoft/hadoop-2.4.0/etc/hadoop/ vim slaves 修改为:xxxxxxx原创 2017-10-19 22:04:51 · 4258 阅读 · 0 评论 -
hadoop的分组
1.创建分区类public class AreaPartitioner<KEY, VALUE> extends Partitioner<KEY, VALUE> { private static HashMap<String, Integer> areaMap = new HashMap<String, Integer>(); static { areaMap.pu原创 2017-10-25 22:52:09 · 713 阅读 · 2 评论 -
hadoop 学习笔记001
应用场景 场景1:数据分析平台 典型:电商平台 场景2:推荐系统 场景3:业务系统的底层存储系统 场景1:业务监控系统原创 2017-10-08 21:47:35 · 202 阅读 · 0 评论 -
Hadoop 在centos6.4安装ssh
参考了:http://blog.csdn.net/dr_guo/article/details/50886667 CenOS6.4安装hadoop的ssh 2.配置SSH无密码登录(报错看这:ssh: connect to host localhost port 22: Connection refused) 注:ssh 用户名@主机名 ,如果直接ssh 主机名,它会以你那台机器的当前用户登录原创 2017-10-16 23:41:50 · 274 阅读 · 0 评论 -
hadoop 学习笔记002(安装和启动hadoop)
linux上的hadoop操作 ls 简单的列出目录下的文件 ll 列出目录下的详细文件tar -zxvf hadoop-2.4.1.tar.gz -C /app1.修改hadoop的配置信息 /etc/hadoop/hadoop-env.sh显示java安装目录echo $JAVA_HOME配置hadoop的java环境变量# The java implementati原创 2017-10-17 00:00:25 · 250 阅读 · 0 评论 -
Permission denied: user=administrator, access=WRITE, inode="/":root:supergroup:drwxr-xr-x
linux 用户操作hadoop上的hdfs的文件系统没有权限,解决方法:进入dfs根目录建立一个文件夹userhdfs dfs -ls /将该文件夹的权限给某个用户tangchhdfs dfs -chown -R tangch:supergroup /user原创 2017-10-20 23:17:26 · 542 阅读 · 0 评论 -
hadoop 学习笔记005(shell命令简单了解)
1.checksum 检查文件是否损坏linux环境下baby:babyes没有这个用户 sudo chown baby:babyes install.log chown: invalid user: `baby:babyes'2.hadoop环境下hadoop fs -ls /hadoop fs -chown baby:babyes /myfile.txt没有问题!尽管这里没有用户b原创 2017-10-19 22:58:53 · 448 阅读 · 0 评论 -
hadoop 学习笔记004(设置ssh免登录)
A机 1.生成密钥ssh-keygen -t rsa2.敲击3次3.进入目录cd .ssh/ll4.拷贝密钥到B机 [文件] id_rsa id_rsa.pubscp id_rsa.pub B机域名:/home/hadoopB机 B机目前有了id_rsa.pub1.进入了.ssh目录下cd ~cd .ssh[.ssh]$原创 2017-10-19 22:18:44 · 177 阅读 · 0 评论 -
hadoop学习笔记003(感受上传到dfs和hadoop统计计算)
启动和停止hadoop常用命令 stop-all.sh start-all.sh start-dfs.shdatanode没有启动成功,删除格式化日志 解决: 1)删除“/usr/hadoop/tmp”里面的内容 rm -rf /usr/hadoop/tmp/* 2)删除“/tmp原创 2017-10-19 22:10:13 · 257 阅读 · 0 评论 -
hadoop的本地汇总组件Combiner
应用场景: 对于求平均数,汇总求等问题优点:在本地进行汇总,减少io和网络传输占带宽,提升性能1介绍: Combiner组件 1、是在每一个map task的本地运行,能收到map输出的每一个key的valuelist,所以可以做局部汇总处理 2、因为在map task的本地进行了局部汇总,就会让map端的输出数据量大幅精简,减小shuffle过程的网络IO原创 2017-10-25 23:01:00 · 202 阅读 · 0 评论