hadoop
文章平均质量分 60
milyhj123
这个作者很懒,什么都没留下…
展开
-
hadoop文件读写过程
读入过程:1.客户端通过RPC与Namenode通信,namenode返回一个输入流(FSDataInputStream对象)供客户端调用read方法不断读取数据。2.输入流对象封装DFSInputStream对象,该对象管理着namenode和datanoded I/O,接着DFSInputStream连接到存储着所要读取的文件块的距离客户端最近的datanode的数据输出给客户端,读取原创 2017-05-19 10:57:18 · 434 阅读 · 0 评论 -
hadoop HA 过程
示意图:1.DN 周期性的向active和standby的namenode同时发送状态信息和文件块信息,并且只会执行active的namenode的指令;2.active和standby共享QJN方式的文件系统信息(拥有journalNode进程的节点),active向JN写入editlog,写入超过半数的journalnode即表示成功,否则失败。standby向JN读取ed原创 2017-05-25 15:27:06 · 363 阅读 · 0 评论 -
hadoop2任务提交过程
1.在hadoop任意节点上通过 bin/hadoop jar命令开始任务;RunJar进程启动,相当于一个客户端client,计算输入分片。RunJar内置有一个Cluster对象,通它过可以向ResourceManager进行rpc通信;2、客户端向ResourceManager申请作业ID,并且把作业资源文件包括MapReduce程序打包的jar文件、配置信息和客户端计算的输入划分信息存原创 2017-06-22 10:42:08 · 779 阅读 · 0 评论 -
hadoop MR的过程
map阶段:1.由InputSplitFormat对输入数据进行逻辑分片(FileInputFormat.class中的getSplits()方法),默认的分片大小是不大于blocksize的大小,不小于配置文件中mapred.min.split.size中定义的大小,每一个分片分配一个map任务。2.每一个map任务拥有一个环形缓冲区,数据不断wang原创 2017-06-21 16:45:35 · 1168 阅读 · 0 评论 -
大数据备忘命令
oracle:sqoop import --append --connect jdbc:oracle:thin:@10.20.128.227:1526:d0p2ppd --username P2PPDATA --password rmgs5678 --target-dir /hadoop/data/oracle/rmgs_loan_cust_audit_result/ --num-mappe原创 2017-04-25 16:41:10 · 252 阅读 · 0 评论 -
hadoop关于dfs.datanode.data.dir下多个目录不均衡问题
hadoop的dfs.datanode.data.dir是设置datanode节点存储数据块文件的本地路径,通常可以设置多个,用逗号隔开:<property><name>dfs.datanode.data.dir</name><value>/var/local/dfs-data,/usr/local/hadoop/dfs-data</v...原创 2017-09-15 15:47:20 · 9305 阅读 · 1 评论