自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

wisgood的专栏

12月 10月 09月 08月 07月 05月 04月 02月 01月

原创 hive中join导致的数据倾斜问题排查

hive中大key导致的join数据倾斜问题1、场景如果某个key下记录数远超其他key，在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下：查询每个appid打开的次数，需要排除掉作弊的imei。selectappid,count(*)from ( select md5imei,appid from ( select t1.md5im...

2017-08-10 22:55:22 26736 3

原创 hadoop中查找某个字符串所在的hdfs位置

hadoop中查找某个字符串所在的hdfs位置

2017-08-29 09:38:27 6377

原创 hadoop节点字符编码导致的reduce重复记录问题排查

hadoop节点字符编码导致的reduce重复记录问题排查

2017-08-25 09:58:48 24310 1

原创 Hive中虚拟列

Hive中虚拟列

2017-08-25 09:48:37 1998 2

原创 spark读取kafka两种方式的区别

参考：http://spark.apache.org/docs/1.4.1/streaming-kafka-integration.html Receiver与Direct方法相比，后者具有以下优点。简化并行性无需创建多个输入Kafka流和联合它们。使用directStream，Spark Streaming将创建与要消费的Kafka分区一样多的RDD分区，这将从Kafka并行读取...

2017-08-23 22:31:19 2892

原创 Linux下调整/tmp目录大小

Linux下调整/tmp目录大小

2017-08-23 10:28:10 47467 1

java8 32位 64位 jdk8 最新下载地址

java8 32位 64位 jdk8 最新下载地址

2018-01-06

阿里巴巴Java开发手册V1.2.0

阿里巴巴Java开发手册V1.2.0

2017-05-24

protobuf-2.5.0.tar.gz

protobuf-2.5.0.tar.gz

2015-07-06

rpmbuild-demo工程

一个rpm build打包的示例工程，下载完成后可以解压成/home/wang/rpmbuild目录，然后到SPEC目录中执行rpmbuild -ba dteworker-client.spec 即可完成打包

2015-01-21

hive函数大全函数参考

hive函数大全 ,非常全的文档！

2013-12-17

BIEE11g 入门培训

BIEE11g 入门培训,非常适合初学者入门~

2013-11-08

BIEE11g 详细安装文档

BIEE11g非常详细的安装文档，亲自安装成功！

2013-11-08

Weka源代码详细分析系列

Weka源代码详细分析系列，和http://download.csdn.net/download/mythee/2238812里面是一模一样的，介绍的非常详细

2012-05-08

junit 3.8 jar包

junit 3.8 jar包

2012-04-05

sqlserver jar包 jdbc驱动

sqlserver jar包 jdbc驱动

2012-04-05

oracle jar包 jdbc驱动程序

oracle jar包 jdbc驱动程序！java开发常用jar包

2012-04-05

mysql jdbc驱动程序 jar包

mysql-connector-java-5.0.8-bin.jar mysql驱动程序 jar包

2012-04-05

ant apache 1.7 jar

ant apache 1.7 jar!java web开发常用jar包

2012-04-05

Stuct2权威指指南完整版上

讲的是Struct2，非常适合初学者

2012-03-05

java spring全解详细教程原理

讲解spring的资料，非常适合初学者！！！

2012-03-05

设计模式可复用面向对象软件的基础

设计模式的开山之作，一句话：没看过此书，不要说懂设计模式！

2011-10-24

JAVA与模式带标签清晰版阎宏

JAVA与模式，带标签，很清楚！讲解讲的很详细，例子也很好！

2011-10-24

java 反射机制例子

讲解了JAVA中反射机制，包含例子，代码！对初学者很有用

2011-10-04

LDAP 资料代码实例

关于LDAP的资料，经常用的，包含新建，查询，删除，修改

2011-10-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

wisgood

CSDN认证博客专家 CSDN认证企业博客

码龄14年

IP 属地：北京市

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

166: 原创

2万+: 周排名

90万+: 总排名

280万+: 访问

: 等级

2万+: 积分

1206: 粉丝

525: 获赞

188: 评论

1184: 收藏

私信

关注

热门文章

分类专栏

Flink 1篇
Hadoop从入门到放弃 7篇
开源社区贡献 2篇
MapReduce 69篇
Hive 93篇
spark 65篇
Java 102篇
Yarn 5篇
Linux 84篇
数据仓库 8篇
大数据运维 6篇
Hbase 4篇
算法 22篇
Pig 3篇
mysql 10篇
tez 3篇
docker 1篇
HDFS 7篇
编程工具 8篇
scala 9篇
kafka 15篇

最新评论

多年大数据开发经验总结
菜码代码: 现在呢，都没什么公司用了
flink回撤流分析
CSDN-Ada助手: 非常感谢您分享关于flink回撤流分析的博客，这篇文章对于正在学习和使用flink的开发者来说非常有帮助。我觉得下一篇博客可以继续探讨flink的流处理能力，在实际场景中如何应用flink实现数据处理和分析，建议您可以写一篇关于“flink实时数据处理的最佳实践”或“flink在大数据分析中的应用”等主题，相信会有更多读者受益。期待您的下一篇分享！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
hive中join导致的数据倾斜问题排查
wennwennn: 可能其他大key分到其他reduce,大家都慢,就不倾斜了
hive 使用lzo遇到的一个奇怪的问题
code学习社: 请问一下问题解决了，可以告知一下解决方法吗，感谢
如何确定Kafka的分区数、key和consumer线程数
打破砂锅问到底007: 谢谢分享。默认情况下， kafka 是根据 key 来分配消息到哪个 topic的分区的，这样就可以实现某一台消费者机器都是同一个 key的消息，也就是这个 key的消息只会到同一个机器上，这对想保证一定顺序性需求的同学是有帮助的

最新文章

提示

确定要删除当前文章？

取消删除