大数据基础
东户舟先生
学习、运动
展开
-
Spark读取HDFS文件分区数量确定
结论split数量决定分区数量split数量取决于textFile ("", partitionNum)参数goalsize = totalsize / partitionNumsplitsize = Max(minSize,Max(goalsize, blocksize))文件大小大于splitsize 1.1倍会被拆分一个分区只能包含一个文件分区数量 >= 文件数量参考地址:https://www.jianshu.com/p/e33671341f0d...原创 2020-07-05 09:52:32 · 937 阅读 · 0 评论 -
kafka 配置与常用命令
kafka环境搭建Kafka创建和删除topic创建topic指定分区数量kafka_2.11-0.10.2.2/bin/kafka-topics.sh --create --zookeeper hostip:2181 --replication-factor 1 --partitions 1 --topic topic1删除topic./kafka_2.11-0.10.2.2...原创 2020-01-06 14:31:41 · 191 阅读 · 0 评论 -
Spark SQL Adaptive Execution
Spark SQL Adaptivegithub原创 2019-11-28 17:05:37 · 137 阅读 · 0 评论 -
解析flink event-time水位线watermark使用方法
解析flink event-time水位线watermark使用方法原创 2019-11-28 10:59:49 · 258 阅读 · 0 评论 -
spark数据倾斜问题
spark 数据倾斜问题分类及解决方法原创 2019-11-28 10:56:31 · 91 阅读 · 0 评论 -
java.io.IOException: Incompatible clusterIDs
hadoop 多次执行命令:hadoop namenode -format后,发现再次启动hadoop后,datanode节点无法正常启动查看日志java.io.IOException: Incompatible clusterIDs in /home/.../hadoop/tmp/dfs/data :namenode clusterID = CID-**** -*****-*****; d...原创 2019-10-14 09:50:11 · 533 阅读 · 0 评论