- 博客(4)
- 收藏
- 关注
原创 Spark抽取mysql表数据性能慢优化
Spark抽取mysql表数据性能慢优化SparkSQL抽取MySql数据做分析,经常会遇到一下问题:1.在数据量很大的情况下,如果只有一个worker一个excutor一个task,那你excutor的内存足够大或者worker足够多,没问题,否则就要内存溢出Out of memory。2.在既定的资源下,并行度只有一的情况,处理数据速度特别慢,我们就要利用RDD的partition。将获取一个...
2019-10-24 10:10:18 1332
原创 IntelliJ IDEA添加过滤文件或目录
Settings→Editor→File Types在下方的忽略文件和目录(Ignore files and folders)中添加自己需要过滤的内容示例:
2019-07-02 14:17:26 629
原创 Spark2.4源码编译,以支持CDH
Spark2.4源码编译,以支持CDHSpark2.4源码编译,参照官网文档:http://spark.apache.org/docs/latest/building-spark.html ,参考文档,我们需要准备:Maven 3.5.4+Java 8首先需要下载并解压 Spark2.4 ,Maven 和 JDK,并配置环境变量:注意点,以下可以加快编译速度:1.编译...
2019-05-03 21:00:31 678
原创 编译Hadoop2.6.0-cdh-5.7.0源码以支持压缩格式
编译Hadoop2.6.0-cdh-5.7.0源码以支持压缩格式下载源码包hadoop-2.6.0-cdh5.7.0-src.tar.gz,解压后cd进入源码目录下,打开BUILDING.txt,如下图:根据截图所示,需要准备:JDK1.7(必须使用1.7的版本,不然会报各种错误)。Maven 3.0 或以上Findbugs1.3.9Protocol2.5.0hadoop-2.6...
2019-05-02 10:05:25 119
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人