hadoop 学习过程的随记

最新推荐文章于 2023-01-09 17:49:20 发布

西电一枝花

最新推荐文章于 2023-01-09 17:49:20 发布

阅读量1.1k

点赞数

分类专栏： Hadoop 文章标签： hadoop 作业 apache mapreduce 任务集群

本文链接：https://blog.csdn.net/lilin_xdu/article/details/6752534

版权

Hadoop 专栏收录该内容

26 篇文章 0 订阅

订阅专栏

Configuration 是一个类 Hadoop中的组建的配置是通过Hadoop提供的API来进行的一个Configuration代表配置属性及其取值的一个集合
Configuration conf = new Configuration();
conf.addResource("");
asseertThat(conf.get("color").is("yellow"))

hadoop fs -copyFromLocal 本地 HDFS目的地
hadoop fs -mkdir 目录名字
hadoop fs -lsr 查询目录下的文件
hadoop xxx argus[0] argus[1]
hadoop fs -cat /user/lilin/hello.txt //查看该文件内容
hadoop dfsadmin -safemode enter
hadoop dfsadmin -safemode leave
hadoop dfsadmin -report
hadoop dfsadmin -help
hadoop dfsadmin -finalize Upgrade
hadoop fs -expunge 删除回收站里的内容
start-dfs.sh -rollback 如果需要退回到老版本,就必须停止集群并且部署老版本的Hadoop 用回滚选项启动集群
hadoop fs -help 很有用
HDFS支持动态添加DataNode,而不中断服务../hdfs-daemon.sh start datanode
hadoop fs –rmr example.txt 删除hdfs中的文件
上传 hadoop fs -put 源文件目标文件夹
hadoop archive -archiveName src dst
hadoop fs -conf conf/hadoop-localhost.xml -ls
hadoop ConfigurationPrinter -D color=yellow |grep color
-D 表示优先级要高于配置文件里的其他属性

./start-hbase.sh 启动hbase

./hbase shell 进入shell环境

list 列出信息

create ‘test’ ， ‘data’ 建立表 test 其中只有个data列

put ‘test' ，'row1', 'data:1' , 'value1' 在test表中在data列簇中加入数据，

scan ’test‘ 浏览test

disable ’test' 禁用

drop ‘test' 移除表

./stop-hbase.sh 停止hbase
重要的提示
启动时 namenode 信息文件夹 not accessable 从新format

-Xmx512m JVM最大内存空间

1) '/etc/init.d/iptables stop' -->stopped firewall
2) SELINUX=disabled in '/etc/selinux/config' file.-->disabled selinux
I worked for me after these two changes
　
Apache Ant,是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具，大多用于Java环境中的软件开发。由Apache软件基金会所提供。　　
用户群：大多数的Java设计都被用于管理大量信息流，例如纽约州就使用Apache Ant去管理美国最大的青年计划，每天可以实时更新超过25万学生的记录。

io.sort.mb属性，int类型，Map端使用
该属性设置对Map输出进行排序时使用的环形内存缓冲区的大小，以M字节为单位，默认是100M。如果允许，应该增加它的值来减少磁盘溢写的次数以提高性能。

数据检测抛给客户端的一场ChechsumException 数据检验异常是IOException的一个子类
每个datanode的后台运行一个DataBlockScanner 用副本修复损坏的数据

JobClient的submitJob方法提交作业
首先向jobtracker请求一个新的作业ID，通过JobTracker的getNewJobIdD（）方法获得。然后检查作业的输出说明和计算作业的输入分片
然后将运行作业所需要的资源（包括作业jar文件，配置文件和计算所得的输入分片）复制到一个以作业ID命名的目录下的jobtracker的文件系统中。作业jar的副本较多，因此在运行作业的任务时，集群中有很多个副本可供tasktracker访问。
最后告知jobtracker作业准备执行了。

计数器是一种收集作业的统计信息的有效手段，用于质量监控或应用级统计

SequenceFile是记录二进制文件类型的文件提供二进制键/值对的永久存储数据结构。

注意一个分片并不包含数据本身，而是指向数据的引用，存储的位置供MapReduce系统使用以便将map任务尽量放在分片数据附近，而长度用来排序分片，以便处理优先处理最大的分片，从而最小化作业运行时间

InputFormat 负责产生输入分片并将他们分割成记录、

JobClient调用getSplits () 方法 map期望任务数期望为numSplits作为参数传入，这个参数只是一个参考值。
InputFormat实现可以自由地返回一个不同于numSplits的分片数。计算好后，发给jobtracker，jobtracker调用其存储位置信息来调度map任务从而在tasktracker上处理这些分片数据。

FileInputFormat只分割大文件，就是超过HDFS块大小的文件。
HDFS文件块大小
mapred.min.split.size 一个文件分片最小的有效字节数
mapred.max.split.size 一个文件中最大的有效字节数
dfs.block.size HDFS中块地大小
dfs.replication.min 是副本数属性
io.file.buffer.size属性来设置缓冲区大小

CombineFileInputFormat 将多个文件打包到一耳光分片中

用户无需指定究竟masters文件中的哪台或哪些机器正在运行namenode和jobtracker，该操作由运行脚本的机器决定、