Hadoop-MapReduce 调优(生产经验)

最新推荐文章于 2024-07-22 17:20:23 发布

老鼠扛刀满街找猫@

最新推荐文章于 2024-07-22 17:20:23 发布

阅读量170

点赞数

分类专栏： hadhoop 文章标签： mapreduce hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27242695/article/details/120893997

版权

hadhoop 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

文章目录

Hadoop-MapReduce 生产经验

Hadoop-MapReduce 生产经验

1 MapReduce 跑的慢的原因

1.1 计算机性能

CPU、内存、磁盘、网络

1.2 I/O 操作优化

数据倾斜
Map 运行时间太长，导致 Reduce 等待过久
小文件过多

2 MapReduce 常用调优参数

2.1 优化1

在这里插入图片描述

2.1 优化2

在这里插入图片描述

3 MapReduce 数据倾斜问题

3.1 常见现象

数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。

3.2 减少数据倾斜的方法

首先检查是否空值过多造成的数据倾斜
生产环境，可以直接过滤掉空值；如果想保留空值，就自定义分区，将空值加随机数打散。最后再二次聚合。
能在 map 阶段提前处理，最好先在 Map 阶段处理。如：Combiner、MapJoin
设置多个 reduce 个数

老鼠扛刀满街找猫@

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop-MapReduce 调优(生产经验)

文章目录Hadoop-MapReduce 生产经验1 MapReduce 跑的慢的原因1.1 计算机性能1.2 I/O 操作优化2 MapReduce 常用调优参数2.1 优化12.1 优化23 MapReduce 数据倾斜问题3.1 常见现象3.2 减少数据倾斜的方法Hadoop-MapReduce 生产经验1 MapReduce 跑的慢的原因1.1 计算机性能CPU、内存、磁盘、网络1.2 I/O 操作优化数据倾斜Map 运行时间太长，导致 Reduce 等待过久小文件过多
复制链接

扫一扫

专栏目录

老鼠扛刀满街找猫@

博客等级

码龄9年

167
原创

99
点赞

355
收藏

5169
粉丝

关注

私信

热门文章

分类专栏

flink 28篇
java 18篇
maven 2篇
centos 4篇
yarn 1篇
hadhoop 22篇
SpringBoot 24篇
clickhouse 5篇
Spring 17篇
ES 4篇
Activemq 1篇
kafka 2篇
设计模式 7篇
MySql 15篇
问题 6篇
zookeeper 2篇
Redis 7篇
nginx 1篇
docker 1篇
spring手写框架 1篇

最新评论

JAVA 字符串替换占位符
HrYy2662: StrSubstitutor这个方法，org.apache.commons commons-lang3在 3.6以后废弃了该方法，apache建议替换成 commons-text 包中的StringSubstitutor
Flink 案例2-基于log日志统计浏览量统计
老馆与清风: hot url:> BehaviorUriOutWindow{serverName='null', url='/save', aggCount=4, time=Sat Jan 28 15:39:26 CST 2023} hot url:> BehaviorUriOutWindow{serverName='null', url='/save', aggCount=4, time=Sat Jan 28 15:39:26 CST 2023} hot url:> BehaviorUriOutWindow{serverName='null', url='/save', aggCount=4, time=Sat Jan 28 15:39:26 CST 2023} hot url:> BehaviorUriOutWindow{serverName='null', url='/save', aggCount=4, time=Sat Jan 28 15:39:26 CST 2023} hot url:> BehaviorUriOutWindow{serverName='null', url='/save', aggCount=4, time=Sat Jan 28 15:39:26 CST 2023} hot url:> BehaviorUriOutWindow{serverName='null', url='/save', aggCount=4, time=Sat Jan 28 15:39:26 CST 2023} hot url:> BehaviorUriOutWindow{serverName='null', url='/save', aggCount=4, time=Sat Jan 28 15:39:26 CST 2023}，重复的太多了
Flink 案例2-基于log日志统计浏览量统计
老馆与清风: 一条打印了多条
Flink 案例2-基于log日志统计浏览量统计
老馆与清风: 上面都已经解决了，但大佬能加个qq吗
Flink 案例2-基于log日志统计浏览量统计
老馆与清风: 14:51:40.006 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the java.util.Properties 14:51:40.022 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the java.lang.Long 14:51:40.251 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the com.tian.logcj.job.UrlCountJob$1 14:51:40.344 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the org.apache.flink.api.common.functions.util.PrintSinkOutputWriter 14:51:40.345 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the java.lang.Boolean 14:51:40.345 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the java.lang.String 14:51:40.345 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the [C 14:51:40.345 [main] DEBUG org.apache.flink.api.java.ClosureCleaner - Dig to clean the java.lang.Integer Process finished with exit code 0

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。