![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
ITWords
本人主要深入研究语言java、scala,擅长方向大数据开发,java编程,系统建设和架构。
展开
-
spark-shell在yarn上卖弄启动时报错The specified datastore driver (“com.mysql.jdbc.Driver“) was not found
在安装好的Hadoop集群和spark集群中安装好hive。但是在利用yarn启动spark-shell时候,报了以下错误: The specified datastore driver ("com.mysql.jdbc.Driver") was not found 。。。。。 这个时候与找不到了MySQL的驱动,所以需要在spark-defaults.conf中进行指定配置。 spark.executor.extraClassPath /home/hadoop/jars/mysql-con原创 2020-07-03 00:47:02 · 241 阅读 · 0 评论 -
spark集群实现wordcount
环境配置是:hadoop2.7.2 + zookeeper 3.4.5+ spark 2.1.1 说明: 这里的wordcount是使用scala书写,资源调度使用的是yarn。 1.环境搭建 提前搭建好hadoop集群和zookeeper。 2.搭建spark集群配置 使用的是yarn的集群配置。所以要在启动spark之前线启动hdfs和yarn。 3.代码书写: def main(args: Array[String]): Unit = { //1.创建SparkConf并设置App原创 2020-06-19 14:02:15 · 400 阅读 · 0 评论 -
Spark通过netcat来监听端口访问数据
首先需要安装好netcat,在centos中没有 -k 参数的命令。 第一步:完成spark的scala程序 package com.lxb.sparkStreaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.{SparkCon...原创 2020-03-22 00:37:11 · 742 阅读 · 0 评论 -
A read-only user or a user in a read-only database is not permitted to disable read-only mode on
在启动spark的时候,遇到的问题。从字面意思可以看到是只读文件,拒绝连接。我们猜想可能是权限不够。因为sparkSql的文件在spark的安装目录下面。与bin统计的目录。有一个metastore_db,进去以后会看到一个db.lck的文件,权限应该不是当前用户的所属。切换到对应的用户下面,修改属组和属主即可。 再次启动即可成功! ...原创 2020-03-18 10:19:51 · 1094 阅读 · 0 评论 -
spark的master和worker 的注册和心跳检测
目录 pom.xml文件: SparkMaster SparkWorker MessageProtocol 运行结果: 在学习spark 的时候,就想着可不可以试着实现一下,spark的底层master和worker的心跳和注册的功能,于是有了下面的代码。很详细。 如果了解更多的内容,可以关注公众号 ITwords ,第一时间获取更多资讯。 ...原创 2020-03-16 16:45:45 · 468 阅读 · 0 评论