大数据
NUllBoss
这个作者很懒,什么都没留下…
展开
-
spark整体概述
Spark整体概述1.1整体概念Apache Spark是一个开源的通用集群计算系统,他提供了High-level编程API,支持Scala,Java和Python三种编程语言。Spark内核使用scala编写,通过基于Scalade 函数式编程特性,在不同的计算层面进行抽象。1.2 RDD抽象RDD(Resilient Distributer Datasets),弹性分布...原创 2019-10-14 16:46:48 · 192 阅读 · 0 评论 -
关于spark连接elasticSearch集群失败问题Connection error (check network and/or proxy settings)- all nodes faile
在用spark 向elasticSearch集群写入数据时爆出 Connection error (check network and/or proxy settings)- all nodes faile 的错误 这个错误是未能连接到elasticSearch集群的一个错误,要排除这个错误1.检查elasticSearch集群是否可用 使用JPS查看2 .查看代码中的端口是否与elast...原创 2018-06-20 12:21:48 · 4652 阅读 · 0 评论 -
关于hue在centos7下编译错误的问题
在编译hue过程中出现了如下的问题OpenSSL/crypto/crl.c:6:23: error: static declaration of ‘X509_REVOKED_dup’ follows non-static declaration static X509_REVOKED * X509_REVOKED_dup(X509_REVOKED *orig) { ...原创 2018-08-23 15:55:13 · 3033 阅读 · 2 评论 -
数据库导入到hive中出现Can't open file: './mxw20_g107/log_action.frm' (errno: 24 - Too many open files)
解决办法 修改数据库中open_files_limit的大小使用 mysqlvariables like 'open_files_limit'; 查看数据库文件限制的参数修改为65536;如果mysql 5.6.29 open files limit 设置不生效vim /etc/systemd/system/mysql.service 加入 LimitNOFILE=65...原创 2018-08-29 11:40:22 · 574 阅读 · 0 评论 -
Spark 任务生成以及提交总结
对spark任务提交源码进行初步阅读梳理下流程其中stage的划分: Spark调度阶段的划分是由DAGScheduler实现的,DAGScheduler会从最后一个Rdd出发,使用广度优先遍历整个依赖树,从而划分调度阶段,依据是否为宽依赖,当某些Rdd操作是Shuffle时,以该Shuffle操作为界限划分前后两个调度阶段。...原创 2019-10-08 16:09:58 · 255 阅读 · 1 评论