运行
除了wordcount 以外,还有很多的粒子。
通过web进行查看
保护Hadoop最好的方法就是在内网进行部署。
Hadoop一些备受关注的特性与版本演进
Append:在hdfs中,半只读的文件系统,一般是不能够修改的,面向的场景是:离线场景分析,设计是合理的,避免一致性的问题,因为我有复制因子,改动起来非常的麻烦。如果能够修改,那么就得加锁之类的东西,那么就得牺牲性能了。如果使用Hbase,OLTP。通过一些方法,这数据库是能修改的。
NameNode HA:叫做高可用的 中心点一点崩掉,所有的节点都挂掉,可以使得namenode变成多个,做到高可用性。
安全性:如果随便谁都能链接上来看,就并不好了。
RAID:不需要赋值很多次,可以分别通过剩余的数据 复原原来的数据 减少数据块的数量,提高存储效率。
YARN:第二代的mapreduce系统
版本演进
了解hadoop的发展。
Cloudera发布版
实际上也就是说,我也可以收费。
CDA
修改host文件
关闭防火墙
关闭防火墙以后记得要重新启动一下,不然无效。
免密码登陆
scp xx(文件名) panpan@123.123.123.123:/xxx/xxx
修改etc/sudoers
如果你的机器是open-jdk的 ,要删除掉。
rpm -e --nodeps java-xx-openjdk-xx.x86
CloudManger
略。