Spark_风中的大数据的博客-CSDN博客

Spark

关注

文章平均质量分 62

关注数：文章数：10 文章阅读量：15129 文章收藏量：100

作者: 风中的大数据

这个作者很懒，什么都没留下…

展开

Spark DataSource表

一、什么是DataSource表二、DataSource表的优势三、DataSource表的缺点四、建DataSource表方法一、什么是DataSource表Spark除了兼容Hive表之外，还支持datasource表。Spark针对Datasource表做了多项优化，读写性能较Hive表有非常大的提升。二、DataSource表的优势（1）写入文件方面：DataSource表在文件写入阶段并不会挨个重命名小文件，而是直接将整个临时文件目录重命名为分区名后移动到对应位置，大.

原创 2022-05-09 14:06:57 · 1185 阅读 · 0 评论
SparkSQL与Hive语法差异

一、相同函数差异二、仅Hive支持三、仅Spark支持四、Parquet表格式相关五、备注一、相同函数差异1.Spark运行时用到的hash函数，与Hive的哈希算法不同，如果使用hash()，结果和Hive的hash()会有差异解决方案：SparkSQL中将hash()修改为兼容Hive的函数hive_hash()2.Hive和SparkSQL使用grouping sets生成的GROUPING_ID不一致示例： Hive: Spark：正在...

原创 2022-05-09 13:58:41 · 5508 阅读 · 0 评论
Spark Shuffle 和 MR Shuffle 异同看这篇就够了

spark shuffle mapreduce shuffle过程，以及区别

原创 2022-04-29 17:06:33 · 1843 阅读 · 0 评论
面试官：spark任务如何调优

如果面试时被问到spark任务如何调优，我们该如何回答呐？下面我们从四大方面回答这个问题，保证吊打面试官。一、spark性能调优1、分配更多的资源比如增加执行器个数（num_executor）、增加执行器个数（executor_cores）、增加执行器内存（executor_memory）2、调节并行度spark.default.parallelism3、重构RDD架构以及RDD持久化尽量去复用RDD，差不多的RDD可以抽取成一个共同的RDD，公共RDD一定要实现持久化4

原创 2022-04-28 17:56:04 · 2050 阅读 · 0 评论
Spark MLlib基于KMeans算法的聚类分析，scala代码

package com.xtf.demo.mllibimport com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionaryimport com.hankcs.hanlp.tokenizer.StandardTokenizerimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark..

原创 2021-01-12 16:50:51 · 680 阅读 · 0 评论
Spark MLlib基于LDA算法的主题分析，scala代码

package com.xtf.demo.mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.clustering.{DistributedLDAModel, LDA, LocalLDAModel}import org.apache.spark.ml.feature.HashingTFimport org.apache.spark.ml.linalg.DenseVectorimport org.apach.

原创 2020-10-28 21:40:00 · 290 阅读 · 0 评论
spark mllib机器学习流水线方式分类模型训练及预测附scala代码

package com.xtf.demo.mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, IndexToString, StringIndexer, StringIndexerModel}import org.apache.spark.sql.{Row,.

原创 2020-09-06 20:37:28 · 754 阅读 · 0 评论
Spark Streaming流任务出现physical memor溢出问题简单解决方案

最近生产环境Spark Streaming流任务出现physical memor溢出，container被kill的情况，主要可以从这几个方面着手解决问题，首先executorMemory配置的过低，提高executorMemory；其次Spark Submit提交时配置spark.yarn.executor.memoryOverheah适当增加；最后代码层面优化，减少不必要的对象创建，...

原创 2019-05-25 17:03:33 · 919 阅读 · 0 评论
Spark Streaming基于simhash算法做新闻信息流去重，附scala代码

simhash算法做新闻去重

原创 2021-01-12 16:54:47 · 749 阅读 · 0 评论
谈谈Spark Streaming流任务在不重启的情况下热加载文件

最近工作中遇到这样一个问题，在Spark Streaming流任务在不重启的情况下热加载文件。由于这个文件比较特殊，他是一个对象一个特征提取所用的idfModel，这里我们训练这个model单独起了一个Spark批任务，训练完成后以Object的类型写入hdfs。但是这个model需要每天刷新一次。在第一次启动流任务时会把model加载进流任务里，但第二天在流不重启的情况下要把更新...

原创 2018-08-16 23:22:02 · 1156 阅读 · 0 评论

Spark

作者: 风中的大数据

Spark DataSource表

SparkSQL与Hive语法差异

Spark Shuffle 和 MR Shuffle 异同看这篇就够了

面试官：spark任务如何调优

Spark MLlib基于KMeans算法的聚类分析，scala代码

Spark MLlib基于LDA算法的主题分析，scala代码

spark mllib机器学习流水线方式分类模型训练及预测附scala代码

Spark Streaming流任务出现physical memor溢出问题简单解决方案

Spark Streaming基于simhash算法做新闻信息流去重，附scala代码

谈谈Spark Streaming流任务在不重启的情况下热加载文件