Configuration 是一个类 Hadoop中的组建的配置是通过Hadoop提供的API来进行的 一个Configuration代表配置属性及其取值的一个集合
Configuration conf = new Configuration();
conf.addResource("");
asseertThat(conf.get("color").is("yellow"))
hadoop fs -copyFromLocal 本地 HDFS目的地
hadoop fs -mkdir 目录名字
hadoop fs -lsr 查询目录下的文件
hadoop xxx argus[0] argus[1]
hadoop fs -cat /user/lilin/hello.txt //查看该文件内容
hadoop dfsadmin -safemode enter
hadoop dfsadmin -safemode leave
hadoop dfsadmin -report
hadoop dfsadmin -help
hadoop dfsadmin -finalize Upgrade
hadoop fs -expunge 删除回收站里的内容
start-dfs.sh -rollback 如果需要退回到老版本,就必须停止集群并且部署老版本的Hadoop 用回滚选项启动集群
hadoop fs -help 很有用
HDFS支持动态添加DataNode,而不中断服务../hdfs-daemon.sh start datanode
hadoop fs –rmr example.txt 删除hdfs中的文件
上传 hadoop fs -put 源文件 目标文件夹
hadoop archive -archiveName src dst
hadoop fs -conf conf/hadoop-localhost.xml -ls
hadoop ConfigurationPrinter -D color=yellow |grep color
-D 表示优先级要高于配置文件里的其他属性
./start-hbase.sh 启动hbase
./hbase shell 进入shell环境
list 列出信息
create ‘test’ , ‘data’ 建立表 test 其中只有个data列
put ‘test' ,'row1', 'data:1' , 'value1' 在test表中 在data列簇中加入数据,
scan ’test‘ 浏览test
disable ’test' 禁用
drop ‘test' 移除表
./stop-hbase.sh 停止hbase
重要的提示
启动时 namenode 信息文件夹 not accessable 从新format
-Xmx512m JVM最大内存空间
1) '/etc/init.d/iptables stop' -->stopped firewall
2) SELINUX=disabled in '/etc/selinux/config' file.-->disabled selinux
I worked for me after these two changes
Apache Ant,是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具,大多用于Java环境中的软件开发。由Apache软件基金会所提供。
用户群:大多数的Java设计都被用于管理大量信息流,例如纽约州就使用Apache Ant去管理美国最大的青年计划,每天可以实时更新超过25万学生的记录。
io.sort.mb属性,int类型,Map端使用
该属性设置对Map输出进行排序时使用的环形内存缓冲区的大小,以M字节为单位,默认是100M。如果允许,应该增加它的值来减少磁盘溢写的次数以提高性能。
数据检测 抛给客户端的一场ChechsumException 数据检验异常 是IOException的一个子类
每个datanode的后台运行一个DataBlockScanner 用副本修复损坏的数据
JobClient的submitJob方法提交作业
首先向jobtracker请求一个新的作业ID,通过JobTracker的getNewJobIdD()方法获得。然后检查作业的输出说明和计算作业的输入分片
然后 将运行作业所需要的资源(包括作业jar文件,配置文件和计算所得的输入分片)复制到一个以作业ID命名的目录下的jobtracker的文件系统中。作业jar的副本较多,因此在运行作业的任务时,集群中有很多个副本可供tasktracker访问。
最后告知jobtracker作业准备执行了。
计数器是一种收集作业的统计信息的有效手段,用于质量监控或应用级统计
SequenceFile是记录二进制文件类型的文件 提供二进制键/值对的永久存储数据结构。
注意一个分片并不包含数据本身,而是指向数据的引用,存储的位置供MapReduce系统使用以便将map任务尽量放在分片数据附近,而长度用来排序分片,以便处理优先处理最大的分片,从而最小化作业运行时间
InputFormat 负责产生输入分片并将他们分割成记录、
JobClient调用getSplits () 方法 map期望任务数期望为numSplits作为参数传入,这个参数只是一个参考值。
InputFormat实现可以自由地返回一个不同于numSplits的分片数。计算好后,发给jobtracker,jobtracker调用其存储位置信息来调度map任务从而在tasktracker上处理这些分片数据。
FileInputFormat只分割大文件,就是超过HDFS块大小的文件。
HDFS文件块大小
mapred.min.split.size 一个文件分片最小的有效字节数
mapred.max.split.size 一个文件中最大的有效字节数
dfs.block.size HDFS中块地大小
dfs.replication.min 是副本数属性
io.file.buffer.size属性来设置缓冲区大小
CombineFileInputFormat 将多个文件打包到一耳光分片中
用户无需指定究竟masters文件中的哪台或哪些机器正在运行namenode和jobtracker,该操作由运行脚本的机器决定、