![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 79
GulfMoon
记录点滴,收货成长!一只奋斗在大数据开发领域的小猿鹏:)
展开
-
JDBC方式连接MySQL、Oracle、Hive、Spark等,通用工具类(Scala版)
通过JDBC方式连接MySQL、Oracle、Hive、Spark等数据库,对返回的结果进行处理,方便后续使用;在创建连接时使用了池化技术,保证高效。原创 2018-08-14 15:07:36 · 1882 阅读 · 0 评论 -
SparkSQL中创建外部表及使用
一、使用需求工作中经常会需要与外围系统打交道,由于外围系统和本系统不处于同一个Hadoop集群下,且不具有访问本系统的权限,所以基本上大数据量的接口都是以文件的方式进行传输。如何快速、便捷的将文件入Spark库中?通过SparkSQL中创建外部表的方式就能够很好地解决这一需求。二、解决方案1. hdfs上创建存放外部表数据文件的目录hdfs dfs -mkdir -p /hu...原创 2019-06-16 16:36:56 · 8582 阅读 · 0 评论 -
SparkSQL中使用concat_ws函数报错:cannot resolve 'concat_ws(,,(hiveudaffunction...
一、报错信息Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve 'concat_ws(,,(hiveudaffunction(HiveFunctionWrapper(org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet...原创 2019-06-13 11:42:24 · 3587 阅读 · 0 评论 -
spark-submit以集群方式提交应用报错:Exception in thread "main" java.sql.SQLException: No suitable driver
一、问题背景因现场项目临近上线,在现场测试环境部署后台程序时候出现各种奇怪的问题,这些都是在公司内部测试环境都没有遇到过的,很有记录下来的必要。Spark应用程序的主要业务逻辑是将MySQL中表数据全量同步到Spark中,以yarn-client模式提交执行报错:Exception in thread "main" java.sql.SQLException: No suitable ...原创 2019-05-15 15:39:55 · 1603 阅读 · 1 评论 -
SparkSQL整合Hive实现metastore元数据共享
一、需求在兼容Hive技术的前提下,推进SparkSQL技术的使用,那么就会衍生出一个问题:如何让Hive和SparkSQL数据共享?,比如在Hive中操作,然后在SparkSQL中能够看到变化,反之亦然。注意:记住一个前提,先使用Hive在先,后引入SparkSQL,笔者在操作过程中发现了一个问题,之前SparkSQL中的数据会看不到,只能看到Hive中的,这个问题有待进一步研究。H...原创 2019-03-26 14:46:47 · 5805 阅读 · 1 评论 -
Spark启动报java.net.ConnectException
一、报错信息在Spark集群中的某台机器上执行spark-shell命令时,报错信息如下:19/02/18 10:41:53 INFO retry.RetryInvocationHandler: Exception while invoking getClusterMetrics of class ApplicationClientProtocolPBClientImpl over rm...原创 2019-02-18 12:57:01 · 4059 阅读 · 0 评论 -
Spark多版本问题:Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set
一、问题背景Shell脚本A中编写了提交Spark作业的命令(spark-submit ...),Shell脚本B作为统一调度脚本中间调用了脚本A,但是作业并没有提交yarn,查看日志信息如下:Multiple versions of Spark are installed but SPARK_MAJOR_VERSION is not set二、分析过程1. 查看Spark当前版本...原创 2019-02-22 14:57:04 · 2012 阅读 · 0 评论 -
Windows端本地开发Spark应用-new HiveContext报NullPointerException
Windows电脑开发Spark应用时,以local模式运行在本地,通过new HiveContext(sc)报java.lang.NullPointerExceptionat org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)一、环境相关1. Windows 102. IDEA 2...原创 2019-01-22 15:44:04 · 468 阅读 · 0 评论 -
Spark Streaming采用Direct Approach(No Receiver)方式连接Kafka消费消息时报错
一、报错信息Exception in thread "main" java.lang.ClassCastException: kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker 18/12/21 11:09:18 INFO BlockManagerMaster: Trying to register B...原创 2018-12-21 11:22:35 · 206 阅读 · 0 评论 -
Spark Streaming消费Kafka生产的消息报错-本机调试阶段
一、报错信息18/12/21 09:56:48 INFO SyncProducer: Connected to gulfmoon:9092 for producing18/12/21 09:56:48 INFO SyncProducer: Disconnecting from gulfmoon:909218/12/21 09:56:48 WARN ClientUtils$: Fetchin...原创 2018-12-21 10:03:13 · 279 阅读 · 0 评论 -
spark中thriftserver服务端、beeline客户端使用
一、thriftserver服务端1. 启动服务$SPARK_HOME/sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=10000 --hiveconf hive.server2.thrift.bind.host=c3pretest11)指定服务端端口hive.server2.thrift.port...原创 2018-09-27 20:10:34 · 1817 阅读 · 0 评论 -
Spark连接MongoDB使用教程
一、前期准备源自MongoDB官方文档,https://docs.mongodb.com/spark-connector/v1.1/getting-started/ 二、编程实现1. maven工程添加依赖maven中央仓库搜索:http://mvnrepository.com/artifact/org.mongodb.spark/mongo-spark-connector ...原创 2018-09-27 20:05:43 · 13985 阅读 · 1 评论 -
spark-submit 执行出现“Cannot allocate memory”错误
There is issufficient memory for the Java Runtime Environment to continue. Native memory allocation(malloc) failed to allocate xxx bytes for committing reserved memory.一、原因分析1. spark-env.sh 配置不合...原创 2018-09-11 14:25:49 · 3059 阅读 · 0 评论 -
Spark源码编译教程
一、背景从Spark官网https://spark.apache.org/ 下载的预编译版本的Spark,受到诸多限制:1. 比如我们生产环境使用的Hadoop是CDH版本,那么从官网下载的预编译版本就不能使用;2. 为了兼容Spark新特性,生产环境只升级了HDFS组件,那么预编译版本也不能使用;因此,为了更好的兼容生产环境中大数据生态组件,我们必须学会如何编译Spark源码。...原创 2018-08-16 15:07:58 · 2779 阅读 · 0 评论 -
Spark SQL命令“load data”是否会删除源文件的研究
load data 命令既可以将本地文件加载到Spark表,也能将HDFS上文件加载到Spark表;因此,分两种情况分别研究:情形一:将本地文件加载到Spark表load data local inpath '/home/gulfmoon/data/test.txt' into table test;经验证,此情形并不会将“/home/gulfmoon/data/test.txt”文...原创 2018-08-14 19:06:17 · 2421 阅读 · 0 评论 -
关于Spark SQL外部表在实战中遇到的问题
笔者之前写过一篇关于Spark SQL外部表的比较全面的学习实验博客,参https://blog.csdn.net/u011817217/article/details/92403843本篇旨在描述和总结在实际工作中使用Spark SQL外部表遇到的一些问题以及相应的解决方案。一、需求描述外围系统通过文件接口的方式定期给一份数据文件,关于接口描述和数据文件示例如下:1. 文件接口...原创 2019-07-15 19:34:10 · 1033 阅读 · 0 评论