spark采坑集锦
方兵兵
大数据开发工程师
展开
-
spark采坑集锦之sparksql操作hive
spark sql如果想操作hive,用sql命令在hive中操作表一、需要在spark安装目录的conf文件夹准备好以下三个文件hadoop安装目录中conf文件夹下的配置文件core-site.xmlhdfs-site.xmlhive安装目录中conf文件夹下的配置文件hive-site.xml里面的mysql用户名 密码 和主机名一定要对啊还有mysql的版本要和这里的驱动一...原创 2019-06-28 10:54:39 · 600 阅读 · 0 评论 -
spark采坑之hive2.0版本后面初始化错误
报错一:Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the “BONECP” plugin to create a ConnectionPool gave an error : The specified datastore driver (“com.mysql.jdbc.Driver”) w...原创 2019-06-28 12:46:30 · 967 阅读 · 0 评论 -
spark采坑集锦之用kafka作为DStream数据源,并行度问题
在SparkStreaming中作为数据源的Kafka怎样接收多主题发送的数据呢?使用StreamingContext.union方法将多个streaming流合并处理def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.spark").setLevel(Level.ERROR) val con...原创 2019-06-29 23:49:59 · 587 阅读 · 0 评论 -
idea中运行spark项目遇到的坑
1、未加载到主类这个问题有很多原因,我的原因是项目缺少.iml文件删除.idea文件夹重新编译build还有可能情况是项目的scala文件夹是否设置为source源2、winutils.exe导致的报错在window下本地运行spark需要系统中安装了hadoop,并且在hadoop/bin目录下有winutils.exe文件3、\tmp\hive 没有写权限这个因为本地运行spar...原创 2019-07-28 13:16:30 · 1221 阅读 · 0 评论 -
spark-sumit提交任务到yarn运行报OutofMemory内存溢出
java.lang.OutOfMemoryError: Java heap space-XX:OnOutOfMemoryError=“kill %p”Executing /bin/sh -c “kill 54710”…yarn logs -applicationId application_1565223618995_0003 > log.log用这个方法搜集该任务的日志,查看错误...原创 2019-08-08 18:14:26 · 1824 阅读 · 0 评论