![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 62
风中的大数据
这个作者很懒,什么都没留下…
展开
-
Spark DataSource表
一、什么是DataSource表二、DataSource表的优势三、DataSource表的缺点四、建DataSource表方法一、什么是DataSource表Spark除了兼容Hive表之外,还支持datasource表。Spark针对Datasource表做了多项优化,读写性能较Hive表有非常大的提升。二、DataSource表的优势(1)写入文件方面:DataSource表在文件写入阶段并不会挨个重命名小文件,而是直接将整个临时文件目录重命名为分区名后移动到对应位置,大.原创 2022-05-09 14:06:57 · 1185 阅读 · 0 评论 -
SparkSQL与Hive语法差异
一、相同函数差异二、仅Hive支持三、仅Spark支持四、Parquet表格式相关五、备注一、相同函数差异1.Spark运行时用到的hash函数,与Hive的哈希算法不同,如果使用hash(),结果和Hive的hash()会有差异解决方案:SparkSQL中将hash()修改为兼容Hive的函数hive_hash()2.Hive和SparkSQL使用grouping sets生成的GROUPING_ID不一致示例: Hive: Spark:正在...原创 2022-05-09 13:58:41 · 5508 阅读 · 0 评论 -
Spark Shuffle 和 MR Shuffle 异同看这篇就够了
spark shuffle mapreduce shuffle过程,以及区别原创 2022-04-29 17:06:33 · 1843 阅读 · 0 评论 -
面试官:spark任务如何调优
如果面试时被问到spark任务如何调优,我们该如何回答呐?下面我们从四大方面回答这个问题,保证吊打面试官。一、spark性能调优1、分配更多的资源比如增加执行器个数(num_executor)、增加执行器个数(executor_cores)、增加执行器内存(executor_memory)2、调节并行度spark.default.parallelism3、重构RDD架构以及RDD持久化尽量去复用RDD,差不多的RDD可以抽取成一个共同的RDD,公共RDD一定要实现持久化4原创 2022-04-28 17:56:04 · 2050 阅读 · 0 评论 -
Spark MLlib基于KMeans算法的聚类分析,scala代码
package com.xtf.demo.mllibimport com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionaryimport com.hankcs.hanlp.tokenizer.StandardTokenizerimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark..原创 2021-01-12 16:50:51 · 680 阅读 · 0 评论 -
Spark MLlib基于LDA算法的主题分析,scala代码
package com.xtf.demo.mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.clustering.{DistributedLDAModel, LDA, LocalLDAModel}import org.apache.spark.ml.feature.HashingTFimport org.apache.spark.ml.linalg.DenseVectorimport org.apach.原创 2020-10-28 21:40:00 · 290 阅读 · 0 评论 -
spark mllib机器学习流水线方式分类模型训练及预测附scala代码
package com.xtf.demo.mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, IndexToString, StringIndexer, StringIndexerModel}import org.apache.spark.sql.{Row,.原创 2020-09-06 20:37:28 · 754 阅读 · 0 评论 -
Spark Streaming流任务出现physical memor溢出问题简单解决方案
最近生产环境Spark Streaming流任务出现physical memor溢出,container被kill的情况,主要可以从这几个方面着手解决问题,首先executorMemory配置的过低,提高executorMemory;其次Spark Submit提交时配置spark.yarn.executor.memoryOverheah适当增加;最后代码层面优化,减少不必要的对象创建,...原创 2019-05-25 17:03:33 · 919 阅读 · 0 评论 -
Spark Streaming基于simhash算法做新闻信息流去重,附scala代码
simhash算法做新闻去重原创 2021-01-12 16:54:47 · 749 阅读 · 0 评论 -
谈谈Spark Streaming流任务在不重启的情况下热加载文件
最近工作中遇到这样一个问题,在Spark Streaming流任务在不重启的情况下热加载文件。由于这个文件比较特殊,他是一个对象一个特征提取所用的idfModel,这里我们训练这个model单独起了一个Spark批任务,训练完成后以Object的类型写入hdfs。但是这个model需要每天刷新一次。在第一次启动流任务时会把model加载进流任务里,但第二天在流不重启的情况下要把更新...原创 2018-08-16 23:22:02 · 1156 阅读 · 0 评论