- 博客(21)
- 收藏
- 关注
原创 Spark DataSource表
一、什么是DataSource表二、DataSource表的优势三、DataSource表的缺点四、建DataSource表方法一、什么是DataSource表Spark除了兼容Hive表之外,还支持datasource表。Spark针对Datasource表做了多项优化,读写性能较Hive表有非常大的提升。二、DataSource表的优势(1)写入文件方面:DataSource表在文件写入阶段并不会挨个重命名小文件,而是直接将整个临时文件目录重命名为分区名后移动到对应位置,大.
2022-05-09 14:06:57 1277
原创 SparkSQL与Hive语法差异
一、相同函数差异二、仅Hive支持三、仅Spark支持四、Parquet表格式相关五、备注一、相同函数差异1.Spark运行时用到的hash函数,与Hive的哈希算法不同,如果使用hash(),结果和Hive的hash()会有差异解决方案:SparkSQL中将hash()修改为兼容Hive的函数hive_hash()2.Hive和SparkSQL使用grouping sets生成的GROUPING_ID不一致示例: Hive: Spark:正在...
2022-05-09 13:58:41 5793
原创 Spark Shuffle 和 MR Shuffle 异同看这篇就够了
spark shuffle mapreduce shuffle过程,以及区别
2022-04-29 17:06:33 2074
原创 面试官:spark任务如何调优
如果面试时被问到spark任务如何调优,我们该如何回答呐?下面我们从四大方面回答这个问题,保证吊打面试官。一、spark性能调优1、分配更多的资源比如增加执行器个数(num_executor)、增加执行器个数(executor_cores)、增加执行器内存(executor_memory)2、调节并行度spark.default.parallelism3、重构RDD架构以及RDD持久化尽量去复用RDD,差不多的RDD可以抽取成一个共同的RDD,公共RDD一定要实现持久化4
2022-04-28 17:56:04 2129
原创 flink任务调用ES报Request cannot be executed; I/O reactor status: STOPPED
flink任务调用ES报Request cannot be executed; I/O reactor status: STOPPED
2022-04-27 10:05:30 1502 1
原创 文本汉子字母数字单独分词scala实现
最近做文本去重,使用simhash算法,首先需要对文本进行分词或者分字,两者使用情况稍有偏差,分词我们使用的时基于hanlp的分词算法,本文介绍第二种文本分字算法,连续的英文字母或者数字分为一个字。scala代码如下:package com.test.xtfimport scala.collection.mutable.ListBufferimport scala.util.c...
2021-01-12 16:52:26 336
原创 Spark MLlib基于KMeans算法的聚类分析,scala代码
package com.xtf.demo.mllibimport com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionaryimport com.hankcs.hanlp.tokenizer.StandardTokenizerimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark..
2021-01-12 16:50:51 707
原创 Spark MLlib基于LDA算法的主题分析,scala代码
package com.xtf.demo.mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.clustering.{DistributedLDAModel, LDA, LocalLDAModel}import org.apache.spark.ml.feature.HashingTFimport org.apache.spark.ml.linalg.DenseVectorimport org.apach.
2020-10-28 21:40:00 314
原创 spark mllib机器学习流水线方式分类模型训练及预测附scala代码
package com.xtf.demo.mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, IndexToString, StringIndexer, StringIndexerModel}import org.apache.spark.sql.{Row,.
2020-09-06 20:37:28 782
原创 Spark集群升级之后,以orc格式写hdfs文件,再导入Hive表字段为null的问题
spark集群升级之后,以orc格式写hdfs文件之后,导入hive表有部分字段为null的bug。hadoop 2.7.2 -->3.1.1;hive 1.2.1 -->3.1.0;spark 2.1.0 -->2.3.2
2020-05-13 11:26:30 1017
原创 Spark Streaming流任务出现physical memor溢出问题简单解决方案
最近生产环境Spark Streaming流任务出现physical memor溢出,container被kill的情况,主要可以从这几个方面着手解决问题,首先executorMemory配置的过低,提高executorMemory;其次Spark Submit提交时配置spark.yarn.executor.memoryOverheah适当增加;最后代码层面优化,减少不必要的对象创建,...
2019-05-25 17:03:33 948
原创 Spark处理HBase热点region重构附scala代码
最近在做新闻信息流推荐业务,采取标签倒排索引存储在HBase的方案。大家都知道HBase会有热点Region的问题,会给单台服务器造成很大的压力,大大降低了HBase的相应性能。为此我们需要把在一个Region中访问量都比较大的标签切分,让它们分布在不同的Region中,以缓解压力。下面来介绍一下切分方案,另附有代码。 在HBase中以新闻被打的标签为rowkey存...
2018-08-27 19:38:52 331
原创 谈谈Spark Streaming流任务在不重启的情况下热加载文件
最近工作中遇到这样一个问题,在Spark Streaming流任务在不重启的情况下热加载文件。由于这个文件比较特殊,他是一个对象一个特征提取所用的idfModel,这里我们训练这个model单独起了一个Spark批任务,训练完成后以Object的类型写入hdfs。但是这个model需要每天刷新一次。在第一次启动流任务时会把model加载进流任务里,但第二天在流不重启的情况下要把更新...
2018-08-16 23:22:02 1175
原创 FineReport 动态传入参数的查询js事件
在帆软报表开发时,会有按照日周月展示,分别对应日表周表和月表,如何用一个数据集实现三个表的数据切换,就需要用到js动态传入参数。例如写一个数据集:SELECT a.volume1 ,a.volume2 ,a.volume3 ,a.${pt} as timefrom ${tablename} aWHERE ${pt}>='${startdate}' and $...
2018-03-05 19:13:31 16047
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人