自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

dreamBoat的博客

大数据、算法方面学习笔记

  • 博客(21)
  • 收藏
  • 关注

原创 Spark DataSource表

一、什么是DataSource表二、DataSource表的优势三、DataSource表的缺点四、建DataSource表方法一、什么是DataSource表Spark除了兼容Hive表之外,还支持datasource表。Spark针对Datasource表做了多项优化,读写性能较Hive表有非常大的提升。二、DataSource表的优势(1)写入文件方面:DataSource表在文件写入阶段并不会挨个重命名小文件,而是直接将整个临时文件目录重命名为分区名后移动到对应位置,大.

2022-05-09 14:06:57 1277

原创 SparkSQL与Hive语法差异

一、相同函数差异二、仅Hive支持三、仅Spark支持四、Parquet表格式相关五、备注一、相同函数差异1.Spark运行时用到的hash函数,与Hive的哈希算法不同,如果使用hash(),结果和Hive的hash()会有差异解决方案:SparkSQL中将hash()修改为兼容Hive的函数hive_hash()2.Hive和SparkSQL使用grouping sets生成的GROUPING_ID不一致示例: Hive: Spark:正在...

2022-05-09 13:58:41 5793

原创 Spark Shuffle 和 MR Shuffle 异同看这篇就够了

spark shuffle mapreduce shuffle过程,以及区别

2022-04-29 17:06:33 2074

原创 面试官:spark任务如何调优

如果面试时被问到spark任务如何调优,我们该如何回答呐?下面我们从四大方面回答这个问题,保证吊打面试官。一、spark性能调优1、分配更多的资源比如增加执行器个数(num_executor)、增加执行器个数(executor_cores)、增加执行器内存(executor_memory)2、调节并行度spark.default.parallelism3、重构RDD架构以及RDD持久化尽量去复用RDD,差不多的RDD可以抽取成一个共同的RDD,公共RDD一定要实现持久化4

2022-04-28 17:56:04 2129

原创 flink任务调用ES报Request cannot be executed; I/O reactor status: STOPPED

flink任务调用ES报Request cannot be executed; I/O reactor status: STOPPED

2022-04-27 10:05:30 1502 1

原创 大数据scala面试题汇总

大数据scala面试题汇总

2022-04-25 16:30:00 4246

原创 「每日一道大数据面试题系列」介绍一下Scala中的闭包函数

大数据面试题介绍一下Scala中的闭包函数

2022-04-24 21:50:20 438

原创 「每日一道大数据面试题系列」介绍一下Scala语言中的隐式转换

大数据面试题介绍一下Scala语言中的隐式转换

2022-04-24 21:35:32 100

原创 今年程序员真的很焦虑

疫情下程序员很焦虑

2022-04-24 21:31:09 167

原创 Spark Streaming基于simhash算法做新闻信息流去重,附scala代码

simhash算法做新闻去重

2021-01-12 16:54:47 789

原创 scala实现布隆过滤器代码

布隆过滤器代码

2021-01-12 16:53:18 276

原创 文本汉子字母数字单独分词scala实现

最近做文本去重,使用simhash算法,首先需要对文本进行分词或者分字,两者使用情况稍有偏差,分词我们使用的时基于hanlp的分词算法,本文介绍第二种文本分字算法,连续的英文字母或者数字分为一个字。scala代码如下:package com.test.xtfimport scala.collection.mutable.ListBufferimport scala.util.c...

2021-01-12 16:52:26 336

原创 Spark MLlib基于KMeans算法的聚类分析,scala代码

package com.xtf.demo.mllibimport com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionaryimport com.hankcs.hanlp.tokenizer.StandardTokenizerimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark..

2021-01-12 16:50:51 707

原创 Spark MLlib基于LDA算法的主题分析,scala代码

package com.xtf.demo.mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.clustering.{DistributedLDAModel, LDA, LocalLDAModel}import org.apache.spark.ml.feature.HashingTFimport org.apache.spark.ml.linalg.DenseVectorimport org.apach.

2020-10-28 21:40:00 314

原创 spark mllib机器学习流水线方式分类模型训练及预测附scala代码

package com.xtf.demo.mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, IndexToString, StringIndexer, StringIndexerModel}import org.apache.spark.sql.{Row,.

2020-09-06 20:37:28 782

原创 Spark集群升级之后,以orc格式写hdfs文件,再导入Hive表字段为null的问题

spark集群升级之后,以orc格式写hdfs文件之后,导入hive表有部分字段为null的bug。hadoop 2.7.2 -->3.1.1;hive 1.2.1 -->3.1.0;spark 2.1.0 -->2.3.2

2020-05-13 11:26:30 1017

原创 Spark Streaming流任务出现physical memor溢出问题简单解决方案

最近生产环境Spark Streaming流任务出现physical memor溢出,container被kill的情况,主要可以从这几个方面着手解决问题,首先executorMemory配置的过低,提高executorMemory;其次Spark Submit提交时配置spark.yarn.executor.memoryOverheah适当增加;最后代码层面优化,减少不必要的对象创建,...

2019-05-25 17:03:33 948

原创 Spark处理HBase热点region重构附scala代码

最近在做新闻信息流推荐业务,采取标签倒排索引存储在HBase的方案。大家都知道HBase会有热点Region的问题,会给单台服务器造成很大的压力,大大降低了HBase的相应性能。为此我们需要把在一个Region中访问量都比较大的标签切分,让它们分布在不同的Region中,以缓解压力。下面来介绍一下切分方案,另附有代码。 在HBase中以新闻被打的标签为rowkey存...

2018-08-27 19:38:52 331

原创 谈谈Spark Streaming流任务在不重启的情况下热加载文件

最近工作中遇到这样一个问题,在Spark Streaming流任务在不重启的情况下热加载文件。由于这个文件比较特殊,他是一个对象一个特征提取所用的idfModel,这里我们训练这个model单独起了一个Spark批任务,训练完成后以Object的类型写入hdfs。但是这个model需要每天刷新一次。在第一次启动流任务时会把model加载进流任务里,但第二天在流不重启的情况下要把更新...

2018-08-16 23:22:02 1175

原创 FineReport 动态传入参数的查询js事件

在帆软报表开发时,会有按照日周月展示,分别对应日表周表和月表,如何用一个数据集实现三个表的数据切换,就需要用到js动态传入参数。例如写一个数据集:SELECT a.volume1 ,a.volume2 ,a.volume3 ,a.${pt} as timefrom ${tablename} aWHERE ${pt}>='${startdate}' and $...

2018-03-05 19:13:31 16047

原创 python代码玩微信小游戏跳一跳win10+android

python代码玩转微信跳一跳

2018-01-01 22:56:32 655

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除