风中的大数据-CSDN博客

原创 Spark DataSource表

一、什么是DataSource表二、DataSource表的优势三、DataSource表的缺点四、建DataSource表方法一、什么是DataSource表Spark除了兼容Hive表之外，还支持datasource表。Spark针对Datasource表做了多项优化，读写性能较Hive表有非常大的提升。二、DataSource表的优势（1）写入文件方面：DataSource表在文件写入阶段并不会挨个重命名小文件，而是直接将整个临时文件目录重命名为分区名后移动到对应位置，大.

2022-05-09 14:06:57 1382

原创 SparkSQL与Hive语法差异

一、相同函数差异二、仅Hive支持三、仅Spark支持四、Parquet表格式相关五、备注一、相同函数差异1.Spark运行时用到的hash函数，与Hive的哈希算法不同，如果使用hash()，结果和Hive的hash()会有差异解决方案：SparkSQL中将hash()修改为兼容Hive的函数hive_hash()2.Hive和SparkSQL使用grouping sets生成的GROUPING_ID不一致示例： Hive: Spark：正在...

2022-05-09 13:58:41 6170

原创 Spark Shuffle 和 MR Shuffle 异同看这篇就够了

spark shuffle mapreduce shuffle过程，以及区别

2022-04-29 17:06:33 2370

原创面试官：spark任务如何调优

如果面试时被问到spark任务如何调优，我们该如何回答呐？下面我们从四大方面回答这个问题，保证吊打面试官。一、spark性能调优1、分配更多的资源比如增加执行器个数（num_executor）、增加执行器个数（executor_cores）、增加执行器内存（executor_memory）2、调节并行度spark.default.parallelism3、重构RDD架构以及RDD持久化尽量去复用RDD，差不多的RDD可以抽取成一个共同的RDD，公共RDD一定要实现持久化4

2022-04-28 17:56:04 2245

原创 flink任务调用ES报Request cannot be executed； I/O reactor status: STOPPED

flink任务调用ES报Request cannot be executed; I/O reactor status: STOPPED

2022-04-27 10:05:30 1610 1

原创大数据scala面试题汇总

大数据scala面试题汇总

2022-04-25 16:30:00 4390

原创「每日一道大数据面试题系列」介绍一下Scala中的闭包函数

大数据面试题介绍一下Scala中的闭包函数

2022-04-24 21:50:20 454

原创「每日一道大数据面试题系列」介绍一下Scala语言中的隐式转换

大数据面试题介绍一下Scala语言中的隐式转换

2022-04-24 21:35:32 124

原创今年程序员真的很焦虑

疫情下程序员很焦虑

2022-04-24 21:31:09 182

原创 Spark Streaming基于simhash算法做新闻信息流去重，附scala代码

simhash算法做新闻去重

2021-01-12 16:54:47 975 1

原创 scala实现布隆过滤器代码

布隆过滤器代码

2021-01-12 16:53:18 313

原创文本汉子字母数字单独分词scala实现

最近做文本去重，使用simhash算法，首先需要对文本进行分词或者分字，两者使用情况稍有偏差，分词我们使用的时基于hanlp的分词算法，本文介绍第二种文本分字算法，连续的英文字母或者数字分为一个字。scala代码如下：package com.test.xtfimport scala.collection.mutable.ListBufferimport scala.util.c...

2021-01-12 16:52:26 358

原创 Spark MLlib基于KMeans算法的聚类分析，scala代码

package com.xtf.demo.mllibimport com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionaryimport com.hankcs.hanlp.tokenizer.StandardTokenizerimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark..

2021-01-12 16:50:51 761

原创 Spark MLlib基于LDA算法的主题分析，scala代码

package com.xtf.demo.mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.clustering.{DistributedLDAModel, LDA, LocalLDAModel}import org.apache.spark.ml.feature.HashingTFimport org.apache.spark.ml.linalg.DenseVectorimport org.apach.

2020-10-28 21:40:00 342

原创 spark mllib机器学习流水线方式分类模型训练及预测附scala代码

package com.xtf.demo.mllibimport org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, IndexToString, StringIndexer, StringIndexerModel}import org.apache.spark.sql.{Row,.

2020-09-06 20:37:28 842