![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 77
艾斯卡达尔
这个作者很懒,什么都没留下…
展开
-
SparkSQL中4个排序的区别
ORDER BY和SORT BY和DISTRIBUTE BY和CLUSTER BY的区别原创 2023-01-28 18:17:14 · 1711 阅读 · 0 评论 -
阿里EMR的elasticsearch版本冲突
记录一次在阿里EMR的踩的坑因为有个需求需要将数据写入到es,采用的方式是通过spark将dataframe写入es进行upsert操作。使用的版本是 Spark-2.4.3 ElasticSearch-7.4.0打好包后上传值服务器,调试运行。代码太多,度娘一搜便是。使用local模式调试,尽然出现了问题。好样的,肯定是版本冲突了。开始查原因,我知道EMR在 /opt/apps/extra_jars/目录下配置几个额外的包,其中包含了es-hadoop-6.3.2的,但我提交但时候并没原创 2020-06-18 11:30:12 · 310 阅读 · 0 评论 -
SparkStreaming实现Exactly Once语义(将offset交给zk托管)
声明下使用的框架使用的版本spark - 2.3.4spark-streaming-kafka-0-10_2.11 - 2.3.4zookeeper - 3.4.14kafka - 2.3.1看了下源码好多老的API都不能使用了。KafkaCluster不存在了,ZKUtils 也 替换为 AdminClient 了。接着上次实现的自定义分区消费来做Exactly Once官网...原创 2020-01-17 16:20:11 · 152 阅读 · 0 评论 -
DirectDStream自定义起始偏移量读取(基于spark-streaming-kafka-0.10 + Spark 2.3.4)
基于spark-streaming-kafka-0.10的自定义消费示例spark版本-2.3.4spark在2.3.0后已经不推荐使用0.8连接器的。0.10连接器也不支持receiver stream。但是在学习的过程中,发现新版本的写法与老版本还是出入很大的。如何自定义分区开始读取的偏移量,如何将offset与zookeeper同步,查了下相关资料也比较少,官网对与这块内容也是简单一...原创 2020-01-16 16:34:01 · 512 阅读 · 0 评论 -
基于spark源码做ml的自定义功能开发
spark的ml中已经封装了许多关于特征的处理方式:极大方便了我们在做数据预处理时的使用。但是这明显不够,在机器学习的领域中,还有许许多多的处理方式,这些都没有存在于feature包中。那要如何去实现?比较简单的方式:spark ml本质上就是对dataframe的操作,可以在代码中处理df以实现该功能。但是实际应用中发现,这样的方式并不好用,我们所做的处理,纯粹是对df的转换提取等操...原创 2019-06-19 14:38:23 · 598 阅读 · 0 评论 -
使用scala的breeze线性代数库做主成分分析(PCA)
import scala.collection.mutable.ArrayBufferimport breeze.linalg.{DenseMatrix, _}import scala.collection.immutableobject demo { def main(args: Array[String]): Unit = { /****************...原创 2019-08-15 18:45:49 · 429 阅读 · 0 评论