hadoop 学习过程的随记

Configuration 是一个类 Hadoop中的组建的配置是通过Hadoop提供的API来进行的 一个Configuration代表配置属性及其取值的一个集合
Configuration conf = new Configuration();
conf.addResource("");
asseertThat(conf.get("color").is("yellow"))

hadoop fs -copyFromLocal  本地  HDFS目的地
hadoop fs -mkdir  目录名字
hadoop fs -lsr 查询目录下的文件
hadoop xxx argus[0]  argus[1]
hadoop fs  -cat  /user/lilin/hello.txt //查看该文件内容
hadoop dfsadmin -safemode enter
hadoop dfsadmin -safemode leave
hadoop dfsadmin -report
hadoop dfsadmin  -help
hadoop dfsadmin  -finalize Upgrade
hadoop fs -expunge 删除回收站里的内容
start-dfs.sh -rollback 如果需要退回到老版本,就必须停止集群并且部署老版本的Hadoop 用回滚选项启动集群
hadoop  fs  -help 很有用
HDFS支持动态添加DataNode,而不中断服务../hdfs-daemon.sh start datanode
hadoop fs –rmr example.txt 删除hdfs中的文件
上传 hadoop  fs  -put  源文件  目标文件夹
hadoop archive -archiveName src  dst
hadoop fs -conf conf/hadoop-localhost.xml -ls
hadoop ConfigurationPrinter -D color=yellow  |grep color
-D 表示优先级要高于配置文件里的其他属性

./start-hbase.sh 启动hbase

./hbase shell 进入shell环境

list 列出信息

create ‘test’ , ‘data’ 建立表 test 其中只有个data列

 

put ‘test' ,'row1',  'data:1' , 'value1'  在test表中 在data列簇中加入数据,

 

scan ’test‘  浏览test

 

disable ’test'  禁用

drop ‘test' 移除表

./stop-hbase.sh  停止hbase
重要的提示
启动时 namenode 信息文件夹 not accessable 从新format

-Xmx512m JVM最大内存空间

1) '/etc/init.d/iptables stop' -->stopped firewall
2) SELINUX=disabled in '/etc/selinux/config' file.-->disabled selinux
I worked for me after these two changes
 
Apache Ant,是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具,大多用于Java环境中的软件开发。由Apache软件基金会所提供。   
用户群:大多数的Java设计都被用于管理大量信息流,例如纽约州就使用Apache Ant去管理美国最大的青年计划,每天可以实时更新超过25万学生的记录。

io.sort.mb属性,int类型,Map端使用
该属性设置对Map输出进行排序时使用的环形内存缓冲区的大小,以M字节为单位,默认是100M。如果允许,应该增加它的值来减少磁盘溢写的次数以提高性能。


数据检测 抛给客户端的一场ChechsumException 数据检验异常 是IOException的一个子类
每个datanode的后台运行一个DataBlockScanner 用副本修复损坏的数据

JobClient的submitJob方法提交作业
首先向jobtracker请求一个新的作业ID,通过JobTracker的getNewJobIdD()方法获得。然后检查作业的输出说明和计算作业的输入分片
然后 将运行作业所需要的资源(包括作业jar文件,配置文件和计算所得的输入分片)复制到一个以作业ID命名的目录下的jobtracker的文件系统中。作业jar的副本较多,因此在运行作业的任务时,集群中有很多个副本可供tasktracker访问。
最后告知jobtracker作业准备执行了。

计数器是一种收集作业的统计信息的有效手段,用于质量监控或应用级统计

SequenceFile是记录二进制文件类型的文件 提供二进制键/值对的永久存储数据结构。

注意一个分片并不包含数据本身,而是指向数据的引用,存储的位置供MapReduce系统使用以便将map任务尽量放在分片数据附近,而长度用来排序分片,以便处理优先处理最大的分片,从而最小化作业运行时间

InputFormat 负责产生输入分片并将他们分割成记录、

JobClient调用getSplits () 方法  map期望任务数期望为numSplits作为参数传入,这个参数只是一个参考值。
InputFormat实现可以自由地返回一个不同于numSplits的分片数。计算好后,发给jobtracker,jobtracker调用其存储位置信息来调度map任务从而在tasktracker上处理这些分片数据。

FileInputFormat只分割大文件,就是超过HDFS块大小的文件。
HDFS文件块大小
mapred.min.split.size 一个文件分片最小的有效字节数
mapred.max.split.size 一个文件中最大的有效字节数
dfs.block.size  HDFS中块地大小
dfs.replication.min 是副本数属性
io.file.buffer.size属性来设置缓冲区大小

CombineFileInputFormat 将多个文件打包到一耳光分片中

用户无需指定究竟masters文件中的哪台或哪些机器正在运行namenode和jobtracker,该操作由运行脚本的机器决定、

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值