![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
胖胖学编程
这个作者很懒,什么都没留下…
展开
-
[yarn]yarn异常
直接kill掉ck1上的nodemanager进程,这样任务可以直接在ck2和ck3上运行。第1个1000指的是要运行1000次map任务。第2个数字指的是每个map任务,要投掷多少次。一、运行一下算圆周率的测试代码,看下报错。发现ck1节点上的所有任务都无法运行。三、无法解决异常,但是需要运行任务。原创 2023-11-07 17:33:07 · 917 阅读 · 0 评论 -
[hadoop]将hive表的数据拉取到本地,转gb18030,并压缩
将hive表的数据拉取到本地,转gb18030,并压缩原创 2022-09-15 15:00:29 · 468 阅读 · 0 评论 -
[hadoop]hive表数据迁移
hive表数据迁移原创 2022-09-15 14:57:37 · 335 阅读 · 0 评论 -
HDFS dfs指令
HDFS dfs指令原创 2022-09-15 14:51:54 · 453 阅读 · 0 评论 -
[ubuntu20]安装hive3.1.2的mysql准备
ubuntu20安装hive3.1.2、mysql5.7.28原创 2022-07-26 08:51:14 · 788 阅读 · 0 评论 -
[hadoop]yarn调度器
yarn调度器原创 2022-07-13 10:26:36 · 542 阅读 · 0 评论 -
[hadoop]常用shell
hdfs常用shell原创 2022-07-11 15:46:51 · 119 阅读 · 0 评论 -
[hadoop]安装hadoop.ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.原创 2022-07-05 10:43:53 · 326 阅读 · 0 评论 -
[hadoop]基准测试 | hadoop宕机 | hadoop数据倾斜
1.基准测试搭建完hadoop集群后需要对HDFS读写性能和MR计算能力测试,测试jar包在hadoop的share文件夹下.2.hadoop宕机1)如果MR造成系统宕机,此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存,调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存,默认是8192MB)2)如果写入文件过快造成NameNode宕机,那么调高KafKa的存储大小,控制从Kafka到HDFS的写入速度,例如:可以原创 2022-03-14 11:18:28 · 424 阅读 · 0 评论 -
[hadoop]什么是HA|普通HDFS和HA的不同|HA自动故障转移机制
待完成原创 2022-03-10 11:27:35 · 1078 阅读 · 0 评论 -
[hadoop]WordCount
必须能默写原创 2022-03-10 11:26:34 · 408 阅读 · 0 评论 -
[hadoop]yarn调度器
1.hadoopde的调度器重要分为3类:FIFO,Capacity Scheduler(容量调度器)和Fair Scheduler(公平调度器)。Apache默认的资源调度器是容量调度器。CDH默认的资源调度器是公平调度器。2.区别:FIFO调度器:支持单队列,先进先出,生产环境不会用。容量调度器:支持多队列,保证先进入的任务优先执行。公平调度器:支持多队列,保证每个任务公平享有队列资源。3.在生产环境怎么选择?大厂:如果并发度要求比较高,选择公平调度器,要求服务器性能原创 2022-03-10 11:23:57 · 970 阅读 · 0 评论 -
[hadoop]MapReduce组件介绍 |全流程
一.知识点1.wc.jar这个包里包括1)AppMaster:用于阶段调度,它负责程序中各个阶段的调度,一个jar包一个AppMaster。2)阶段一:MapTask3)阶段二:ReduceTask2.job提交的是任务的描述,包括:1)文件的大小2)一个片的大小3)任务的数量4)Job的名字“wordcount”5)AppMaster分配的资源等注:用户提交的Job要被拆分到多个主机运行,在每台主机上运行的东西就是任务。3.4.5.6.7.原创 2022-03-07 16:29:32 · 1027 阅读 · 0 评论 -
[hadoop]数据迁移|判断文件|修改副本数|清理垃圾
1.数据迁移hadoop distcp -Dmapreduce.job.queuename=hive2 hdfs://ip1:8020/user/hive/warehouse/test.db/t1 hdfs://ip2:8020/user/hive/test.db/ip1表示从哪里导入,ip2表示导入到哪里。如果这条命令在ip1所在的节点运行则为ip1向ip2推送数据,此时用的是ip1的资源.如果这条命令运行在ip2所在节点则为ip2从ip1拉取数据,此时用的是ip2的资源.注意:原创 2022-03-03 11:38:36 · 1215 阅读 · 0 评论 -
[hadoop] 各节点职责| checkpoint |安全模式 |读写流程|小文件|安全模式 | NameNode启动流程
一HDFS什么是HDFS?当数据集大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台独立的计算机上.管理网络中跨多台计算机存储的文件系统成为分布式文件系统.该系统架构于网络之上,势必会引入网络编程的复杂性.因此分布式文件系统比普通文件系统更为复杂.二内部原理1.NameNode职责Name2.NameNode元数据3.SecondaryNameNode职责4.checkpoint机制...原创 2022-03-02 14:22:10 · 5647 阅读 · 0 评论 -
[hadoop]2.x端口号
HDFS端口号:50070yarn:8088历史服务器:198889000:客户端访问集群端口原创 2022-03-02 10:49:17 · 380 阅读 · 0 评论