![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
holomain
足够明亮,做够善良
展开
-
IDEA运行spark程序报错Exception in thread "main" java.net.BindException: Cannot
错误提示如下: Exception in thread “main” java.net.BindException: Cannot assign requested address: Service ‘sparkDriver’ failed after 16 retries (starting from 0)! Consider explicitly setting the appropriate原创 2017-07-12 19:07:45 · 1159 阅读 · 0 评论 -
by: java.lang.NoSuchMethodError: scala.collection.Iterator.aggregate(Ljava/lang/Object;Lscala/Functi
by: java.lang.NoSuchMethodError: scala.collection.Iterator.aggregate(Ljava/lang/Object;Lscala/Functi在使用spark on succinct时爆出如上错误:解决方法,将succinct jar包升级到 0.1.7, 或者将spark中的scala jar降级到2.10.*参考:http://...原创 2018-10-15 20:53:41 · 345 阅读 · 0 评论 -
Windows下使用idea git 插件
git的使用: 1.window本地安装git for windows:记住git.exe所在位置,接下来需要在idea中配置git相关设置中选中该exe。 2.安装gitee for idea 的plugin。这里选择“百度搜索idea plugin”,下载合适的版本插件”,然后在idea中的plugin中选择install from local disk,然后重启,即可。 ...原创 2018-08-12 20:48:57 · 781 阅读 · 0 评论 -
windows 本地测试spark streaming + kafka direct api
windows 本地测试spark streaming + kafka direct api 卡在如下信息出: “Kafka scala consumer marked as dead for group”1.环境:kafka server为集群,连接时使用的是hostname:9092方法去连接,程序也不报错, 就是卡在上面的信息出,没有输出。 2.之前已经在集群上使用shell...原创 2018-07-20 11:38:49 · 458 阅读 · 0 评论 -
VectorizedReader 和 ORC
Spark 2.3.0支持ORC Vectorized矢量化源码分析在Spark2.3.0的release文档中,提到ORC Vectored带来的性能提升:提高scan吞吐2-5倍; 开启条件:spark.sql.orc.impl=native;ORC 文件类型当然该ISSUE的提出还是有些背景的(https://issues.apache.org/jira/browse/SP...转载 2018-07-10 11:39:34 · 937 阅读 · 0 评论 -
Structed Streaming 小案例
1 首先是官网:http://spark.apache.org/docs/latest/structured-streaming-programming-guide.ht注意官方文档中的着重表示的地方例如(黑体加重,斜体等) 我们都知道spark streaming 是基于spark core API 那Structed Streaming基于的是什么? 没错就是Spark...原创 2018-06-18 14:46:37 · 2597 阅读 · 0 评论 -
spark2.3.0 源码编译,一次成功。
1》基础环境准备:jdk1.8.0_101 maven 3.3.9scala2.11.8安装好上述软件,配置好环境变量,并检查是否生效。note: 2》maven 3.3.9 : 需要修改maven的安装目录下的conf/settings.xml文件中添加如下配置,以达到jar下载加速的效果 <!-- 阿里云中央仓库 --> <mi...原创 2018-04-18 15:37:26 · 2161 阅读 · 4 评论 -
Spark 写出MySQL报错,java.sql.BatchUpdateException
spark DataFrame 写出到MySQL时报如下错误:java.sql.BatchUpdateException: Column ‘name’ specified twice at sun.reflect原因: 写出的DataFrame 表结构和MySQL中创建的表结构不一致, 2个 DataFrame join 后的结果中有两列都是“name”列。解决: 修改DataF...原创 2018-04-11 22:35:24 · 1162 阅读 · 0 评论 -
Spark 官网阅读笔记
1.spark读取本地文件系统: 则该文件也必须可以在工作节点上的相同路径上访问。所以需要将文件复制到所有work 节点或使用网络安装的共享文件系统。 2.group by key 没有reduceBykey, aggregateBykey高效,(后者是同时分区排序)3.accumulator 累加器的使用 4.broadcast variables 广播变量的使用 5:Dat...原创 2018-04-10 21:01:07 · 650 阅读 · 0 评论 -
spark-shell 启动报错, error: not found: value spark(低级已解决)
查看报错原因: java.net.BindException: Cannot assign requested address: Service ‘sparkDriver’ failed after 16 retries (starting from 0)! Consider explicitly setting the appropriate port for the service ‘spa原创 2017-07-22 10:02:53 · 4778 阅读 · 0 评论 -
利用 sparksession读取Parquet,Json格式文件
Spark支持的一些常见的格式:文本文件:无任何的格式json文件:半结构化parquet:一种流行的列式存储格式sequencefile:一种(k-v)的Hadoop文件格式. import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSessionobject OpsWihtJson_and_原创 2017-07-09 16:33:22 · 7030 阅读 · 0 评论 -
启动spark- sqI时:Error: A JNI error has occurred, please check your installation and try again Exceptio
错误信息:Error: A JNI error has occurred, please check your installation and try againException in thread “main” java.lang.NoClassDefFoundError: org/slf4j/Logger解决:命令行临时导入下面这个变量,或者配置到环境变量中,即可。 #添加Had...原创 2019-04-18 09:56:08 · 5202 阅读 · 0 评论