![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 79
xuxu1116
中国科学院大学 硕博连读 主要研究方向多模态算法 aigc生成技术,也会分享一下工程问题,因为一个合格的算法工程就是要算法和工程两手抓
展开
-
dataset dataframe rdd区别和互相转化
DataFrame、Dataset、RDD的区别与联系及相互之间的转换本文主要讲解Apache Spark 2.0中RDD,DataFrame和Dataset三种数据组织类型;它们各自适合的使用场景,是最常用的数据类型,在学习spark的过程中对其不是很了解,现在整理如下:一、共同点:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供...原创 2019-03-29 17:53:39 · 295 阅读 · 1 评论 -
spark遇到的错误总结
1、Operation category READ is not supported in state standby2、配置spark.deploy.recoveryMode选项为ZOOKEEPER3、多Master如何配置4、No Space Left on the device(Shuffle临时文件过多)5、java.lang.OutOfMemory, unable to crea...原创 2019-03-31 20:48:39 · 10419 阅读 · 1 评论 -
sparkstreaming和Kafka的结合(两种不同kafka版本的区别)
公司原来开发使用的是Kafka0.8版本的,虽然很好用,但是看了一下kafka官网的0.10版本更新了好多的特性,功能变得更强了。以后考虑换成0.10版本的,因此特意研究了一下两个版本的区别和使用方法。先贴出两个版本的pom文件一、spark-streaming-kafka-0-8_2.11-2.0.2.jar1、pom.xml1 org.apache.spark sp...原创 2019-03-29 13:02:05 · 4463 阅读 · 1 评论 -
spark1.x和spark2.x的区别
spark 2.x 版本相对于1.x版本,有挺多地方的修改,1 Spark2 Apache Spark作为编译器:增加新的引擎Tungsten执行引擎,比Spark1快10倍2 ml做了很大的改进,支持协同过滤http://spark.apache.org/docs/latest/ml-collaborative-filtering.html3 spark2 org.apache.spar...原创 2019-03-29 13:19:14 · 2916 阅读 · 1 评论 -
SparkStreaming实现HA高可用
SparkStreaming HA高可用性实现起来首先是自身的高可用操作主要是以下三点1、UpdateStateByKey、windows等有状态的操作时,自动进行checkpoint,必须设置checkpoint目录,数据保留一份在容错的文件系统中,一旦内存中的数据丢失,可以从文件系统中读取数据,不需要重新计算。SparkStreaming.checkpoint(“hdfs://ip:por...原创 2019-03-29 13:24:25 · 397 阅读 · 1 评论