hadoop
文章平均质量分 59
游九河
每日需更进一步
展开
-
hadoop -- topk
需求对100万条在0~1000万之间的数据取 TopK输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,4727056,2383250,9176...原创 2019-05-08 10:12:47 · 169 阅读 · 0 评论 -
MapReduce -- InputFormat子类 CombineTextInputFormat / NLineInputFormat
TextInputFormat 是MapReduce默认InputFormatCombineTextInputFormat:主要用于小文件合并代码 : public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); J...原创 2019-08-28 19:07:14 · 237 阅读 · 0 评论 -
MapReduce split个数和文件block个数关系
MapReduce split个数和 文件block个数关系粗略计算 cout( block ) = cout( split )在文件块为 128M 时,129M文件只有分为一个split。在源码中文件切分规则为:当剩余文件大于split默认值的 110%时,继续切分文件,否则为一个切片。...原创 2019-08-28 00:34:03 · 876 阅读 · 0 评论 -
HDFS api按文件块下载,合并文件
HDFS 简介hdfs是hadoop中分布式的文件存储系统;具有高容错、可扩展;广泛的用于大数据项目中(不仅仅是hadoop)将257M的文件上传到hdfs[hadoop@hadoop000 spark-2.4.3]$ hdfs dfs -put spark-2.4.3-bin-2.6.0-cdh5.15.1.tgz /test/第一种:按文件块下载文件,然后拼接为一个完整的文件...原创 2019-08-27 00:01:37 · 628 阅读 · 0 评论 -
HDFS api上传文件和hdfs命令上传副本数为什么不一致?
HDFS 简介hdfs是hadoop中分布式的文件存储系统;具有高容错、可扩展;广泛的用于大数据项目中(不仅仅是hadoop)1 hdfs copyFromLocal1.1 java API public static final String HDFS_PATH = "hdfs://192.168.72.160:8020"; Configuration configura...原创 2019-08-26 21:41:19 · 575 阅读 · 1 评论 -
运维 -- linux465端口发送qq邮件
1.在QQ账号设置中开启SMTP并获取获取授权码1.开启POP3/SMTP服务2.开启IMAP/SMTP服务3.生成授权码,并保存2.关闭 sendmail 服务,并清除开机启动[root@ruozedata001 ~]# service sendmail stopRedirecting to /bin/systemctl stop sendmail.serviceFailed ...原创 2019-08-23 00:45:06 · 1104 阅读 · 0 评论 -
hadoop 常见面试题
hdfs yarn常用命令整理hdfs新建文件路径:hdfs dfs -mkdir /input 文件上传:hdfs dfs -put wordcount.txt /input/ 查看文件系统:hdfs dfs -ls /文件下载:hdfs dfs -get /input/wordcount.txt ~/aa查看文本:hdfs dfs -text /input/wordcount.t...原创 2019-08-25 17:32:10 · 189 阅读 · 0 评论 -
hadoop HA集群搭建
一、环境准备1.3台主机添加 hadoop 用户[root@localhost ~]# useradd hadoop2.切到hadoop 用户下新建目录[root@localhost ~]# su - hadoop[hadoop@localhost ~]$ mkdir app software source data lib script tmp maven_repos3.查看...原创 2019-08-25 17:25:48 · 255 阅读 · 0 评论 -
hdfs dfs -ls 与 hdfs dfs -ls / 区别
hdfs dfs -ls hdfs dfs -ls / hdfs dfs -ls hdfs://ip:9000/ 结果是否相同hdfs dfs -ls 默认目录是在hdfs文件系统的/user/用户名hdfs dfs -ls == hdfs dfs -ls /user/hadoophdfs dfs -ls[hadoop@hadoop000 bin]$ hdfs dfs -lsF...原创 2019-08-25 17:02:25 · 14102 阅读 · 0 评论 -
hdfs HA 与 yarn HA
1. hdfs HA 架构流程HA中的角色ZK:协调系统切换NameNodeZKFC:自动故障转移进程,负责与ZK、NameNode通讯,当检测到NameNode(active)挂掉时,复制删除注册在ZK上的临时znode,NameNode(standby)会通过ZKFC在ZK上注册新的临时znode。NameNode(active):活着的NameNodeNameNode(standb...原创 2019-08-25 16:56:35 · 204 阅读 · 0 评论 -
HDFS健康检查 hdfs fsck
检查hdfs 文件系统的健康状况hdfs fsck / :从根目录检查每个文件的数据块是否损坏、丢失 [hadoop@ruozedata001 sbin]$ hdfs fsck / Connecting to namenode via http://ruozedata002:50070/fsck?ugi=hadoop&path=%2F FSCK started by hadoop ...原创 2019-08-21 00:34:55 · 1152 阅读 · 0 评论 -
hdfs HA 故障转移
一、 查看ha中两个主节点的状态hdfs haadmin -getServiceState nn1hdfs haadmin -getServiceState nn2二、当nn1挂掉时,nn2由standby 状态转为 active手动执行故障转移hdfs haadmin -failover nn1 nn2启动 namemode进程hadoop-daemon.sh start...原创 2019-08-21 00:23:35 · 426 阅读 · 0 评论 -
hdfs ha脚本检测failover时,发送邮件预警
1.启动集群[root@ruozedata002 ~]# su - hadoop[hadoop@ruozedata001 ~]$ cd script/[hadoop@ruozedata001 script]$ ./start_cluster.sh2.检查集群进程[hadoop@ruozedata001 script]$ ./jps.sh3.检查 HA 中两个NameNod...原创 2019-08-24 13:55:55 · 157 阅读 · 0 评论 -
大数据 -- 数据倾斜
离线计算的数据倾斜问题数据倾斜就是指我们在计算数据的时候,数据的分散度不够,导致大量的数据集中到一台或者几台机器上,这些数据的计算速度远远低于平均计算速度,导致整个计算过程很慢。Hadoop中的数据倾斜主要表现在任务在Reducer阶段会长时间停留在大概99%处不能结束。这时如果仔细查看日志就会发现有一个或者多个reducer执行过程报oom错误或者container加载失败,这时基本可以判断...转载 2019-06-15 09:02:30 · 359 阅读 · 0 评论 -
hadoop -- 排序
需求对100万条在0~1000万之间的数据进行排序输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,4727056,2383250,917628...原创 2019-05-07 16:32:37 · 280 阅读 · 0 评论 -
MapReduce任务提交源码分析
MapReduce任务提交 API 调用顺序: waitForCompletion -》 submit -》submitJobInternal 主要的部分在 submitJobInternal1. 任务提交 waitForCompletionjob.waitForCompletion(true)2. 任务提交 submit3.任务提交 submitJobInternal3.1 ...原创 2019-08-31 18:20:31 · 190 阅读 · 0 评论