spark
knowfarhhy
开始恢复 写一些学习记录
展开
-
使用正则匹配去掉SQL文本中的注释
如何去掉SQL中的注释,其中注释包含了/***///等格式: Pattern p = Pattern.compile("(?ms)('(?:''|[^'])*')|--.*?$|//.*?$|/\\*.*?\\*/|#.*?$|"); String presult = p.matcher(sql).replaceAll("$1"); System.out.println(presult);...原创 2021-09-26 19:31:51 · 2451 阅读 · 3 评论 -
Spark中ml和mllib库特征处理例子及其文档总结
ML MLlib中特征选择可用算子总结原创 2017-11-09 19:45:42 · 947 阅读 · 0 评论 -
SPARK的线性代数库BLAS
spark中的BLAS中引入了两个包import com.github.fommil.netlib.{BLAS => NetlibBLAS, F2jBLAS}import com.github.fommil.netlib.BLAS.{getInstance => NativeBLAS}因为private[spark] object BLAS extends Serializable with Lo原创 2017-12-08 20:31:50 · 3556 阅读 · 1 评论 -
Spark MLlib中基于DataFrame的 pipeline介绍
一 基本重要概念解释1.1 管道中的主要概念MLlib对机器学习算法的API进行了标准化,使得将多种算法合并成一个pipeline或工作流变得更加容易。Pipeline的概念主要是受scikit-learn启发。DataFrame:这个ML API使用Spark SQL 的DataFrame作为一个ML数据集,它可以容纳各种数据类型。例如,a DataFrame具有可以存储文本,特征向量,真实标签原创 2017-12-02 14:19:02 · 1638 阅读 · 0 评论 -
Spark特征处理之RFormula源码解析
spark中RFormula源码解读简单介绍RFormula通过R模型公式来操作列。介绍了 RFormula的使用介绍了部分源码原创 2017-12-06 14:04:38 · 1764 阅读 · 3 评论 -
structured -streaming -kafka源码分析
structured streaming支持四种input sources分别为File source 、Kafka source 、Socket source (for testing)和Rate source (for testing) 。本文主要介绍Kafka source,从kafka读取数据,兼容 kafka broker版本0.10+。<dependency>...原创 2018-09-02 16:05:11 · 1201 阅读 · 0 评论 -
spark metrics文章整理
spark metrics文章整理官网中文翻译,有助于理解spark metrics基本使用案例展示自定义influxdbsinker自定义kafkasinkerjmxtrans监控spark jvm 通过grafana展示原创 2018-11-27 17:58:48 · 358 阅读 · 0 评论 -
spark on yarn 任务提交流程
原创 2018-12-20 18:41:36 · 1381 阅读 · 0 评论 -
Elasticsearch-spark 源码解析 ---savetoEs
使用例子object Save2EsLocalTest { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("save2eslocal").setMaster("local[*]") conf.set("spark.streaming.stopGracefullyO...原创 2019-01-25 15:51:38 · 6212 阅读 · 0 评论 -
记一次spark源码的bug排查,顺便简单看一下spark sql底层引擎catalyst处理的流程
场景:hive中事先创建好分区表test_table_name,然后通过spark streaming任务处理数据,将rdd转为dataframe后写hive。具体出错代码val result = sparkSession.createDataFrame(rdd, schema)result.write.mode("append").format("hive").partitionBy...原创 2019-05-25 13:04:09 · 2748 阅读 · 7 评论 -
checkpoint中保存了什么内容,理论与实践分析
https://github.com/hehuiyuan/myNote/blob/master/spark/checkpoint-understand.md直接看原文吧,不想在写一遍了,主要涉及到图片,上传好麻烦的感觉!这里写个开头介绍,详细的看链接里面内容~!针对spark streaming介绍checkpoint保存了什么?比如checkpoint会把Checkpoint对象保存到ch...原创 2019-05-23 15:27:44 · 3060 阅读 · 0 评论 -
spark2.4开始支持image图片数据源操作!!
使用 val df = spark.read .format("image") .option("dropInvalid", true) .load("data/mllib/images/origin/kittens") df.select("image.origin", "image.width", ...原创 2019-05-28 23:19:37 · 2977 阅读 · 5 评论 -
解决KafkaConsumer多线程接入不安全问题(spark streaming 消费kafka)
使用场景:设置并行度参数spark.streaming.concurrentJobs >1 时候,使用spark streaming消费kafka异常信息:There may be two or more tasks in one executor will use the same kafka consumer at the same time, then it will throw...原创 2019-06-01 22:37:59 · 4827 阅读 · 4 评论 -
java & scala编译打包配置
<build> <sourceDirectory>src/main/scala</sourceDirectory> <plugins> <plugin> <groupId>org.scala-tools</groupId>...原创 2019-09-19 12:59:52 · 338 阅读 · 0 评论 -
spark机器学习库评估指标总结
spark机器学习库评估指标总结回归评估指标 RMSE(均方根误差) MSE(均方误差) R2(拟合优度检验) MAE(平均绝对误差) MLLIB库√√√√ ML库√√√√ 1.1 MLLIB库1.1.1 Regression原创 2017-09-04 16:08:21 · 12467 阅读 · 1 评论 -
kafka+spark streaming例子入门
启动Kafka Server:bin/zookeeper-server-start.sh config/zookeeper.propertiesbin/kafka-server-start.sh config/server/properties创建topicbin/kafka-topics.sh --create --zookeeper localhost:2181 --replicatio原创 2017-04-07 09:44:41 · 879 阅读 · 0 评论 -
NetworkWordCount 例子工作流程详解
object NetworkWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println("Usage: NetworkWordCount <hostname> <port>") System.exit(1) } StreamingExamp原创 2016-12-01 16:35:02 · 876 阅读 · 0 评论 -
IntelliJ idea 快捷键总结
http://lavasoft.blog.51cto.com/62575/97730本文部分参考来自本文出自 “熔 岩” 博客,题目为IntelliJ Idea 常用快捷键列表。然后本人通过自己了解进行了额外补充。如需转载表明我们两位博客的出处。熔岩博客 knowfarhhy本文出自 “熔 岩” 博客,请务必保留此出处http://lavasoft.原创 2016-11-20 19:21:36 · 382 阅读 · 0 评论 -
StreamDM:基于Spark Streaming、支持在线学习的流式分析算法引擎
转载引用的博客地址大数据分析按照模型是否在线学习可以分为离线学习(Offline Learning))和在线学习(Online Learning)两大方式,对应的数据处理模式分别为批处理(Batch Mode)分析和流处理(Streaming)分析。在实际应用中,存在连续不断的海量、高速的流数据,这些场景下,数据通常无法全部保存,只能在通过系统时进行一次性分析处理,流数据分析平台可以发挥重转载 2016-11-21 09:41:22 · 880 阅读 · 0 评论 -
spark三代API比较
spark 第一代API----RDD:DataFrame核心特征:A list of partitionsA function for computing each splitA list of dependencies on other RDDsOptionally,a Partitioner for key-valueRDDs(e.g. to say the RDD is原创 2016-12-03 16:29:54 · 639 阅读 · 0 评论 -
有关spark mlib中决策树其他博客补充
某博客链接点击一下进去可以查看关于spark mlib一些难理解的东西,但是本人学习中发现有一个错误就是连续特征比如有n个不同样本,对应的bin数目是n+1, split数目是n,,,,对于这一点我在查看源码时候有出入,已经告诉了博主,博主进行了核对,源码里面DecisionTreeMetadata.scala中初始化了numBins这个Array代码如下 val maxPossibleBins =原创 2016-12-12 19:34:59 · 799 阅读 · 0 评论 -
spark数据倾斜问题
数据倾斜:(加更大内存 跟cpu硬件是性能优化的根本之道)(一) 数据倾斜带来的致命性后果:1. OOM(根本原因数据太多)一般OOM都是由于数据倾斜所致,spark基于JVM之上的2. 速度非常慢(二) 数据倾斜的基本特征:1. 任务分配不均匀 2. 个别task处理过度大量的数据(sh原创 2016-11-21 22:18:10 · 760 阅读 · 0 评论 -
spark高级数据分析第二章
首先说一下为什么写这个呢?因为我在看第二章时候遇到了一段代码,看了好长时间才明白了 ,写这个博客主要就是为了讲解那段代码自己的理解,我也是根据最后的结果来猜测这段代码,然后再去深度理解代码,最后才搞懂了这段代码的含义。其中数据类型是如下格式“id_1” “id_2” “cmp_fname_c1” “cmp_fname_c2” “cmp_lname_c1” “cmp_lname_c2”原创 2016-12-05 21:43:26 · 496 阅读 · 0 评论 -
针对其他博客运行streamDM的补充
streamDM简单程序SGDlearner的运行原创 2016-12-06 19:47:55 · 485 阅读 · 0 评论 -
spark receiver工作内幕
ReceiverTracker管理所有receiver,其中Recevier是一个抽象类发消息有两种 :一种是local 自己给自己发 ; 第二种是remote 远程给自己发ReceiverTracker.scala中receive 方法有以下几个case 类 (StartAllReceiver RestartReceiver CleanupOldBlocks UpdateRec原创 2016-11-26 22:51:21 · 850 阅读 · 0 评论 -
spark中利用向量及其矩阵求逆
object DemoScala { def computeInverse(X: RowMatrix): DenseMatrix = {//RowMatrix是一个m*n的矩阵 如果可以求逆需要m==n val nCoef = X.numCols.toInt /*** * computeSVD(k: Int,computeU: Boolean = false,rC原创 2016-12-09 20:02:05 · 2149 阅读 · 0 评论 -
spark中RDD的方法整理
aggregate[U](zeroValue : U)(seqOp : scala.Function2[U, T, U], combOp : scala.Function2[U, U, U]):U def main(args: Array[String]): Unit = { //seqOp函数返回的是值小的 def seqOp(arg1:Int,arg2:Int):Int={原创 2016-12-22 19:32:16 · 487 阅读 · 0 评论 -
华为StreamDM中读取文件的操作
之所以写这篇博客,是因为我在用streamDM的hoeffding tree中遇到了问题。我遇到的问题就是我之前下载的数据格式是libsvm格式,即格式为 label findex1:value1 findex2:value2 然后hoeffding tree是源码中没有设置读取libsvm格式数据,只包含了weka中的ARFF格式数据 和常见的csv格式数据。 其中,ARFF格式数据分为带头原创 2017-03-01 11:52:42 · 739 阅读 · 3 评论 -
图计算中aggregateMessages方法的使用
今天刚刚学习的 spark图计算已经使用aggregateMessages方法替代之前版本的mapReduceTriplets对图聚合的计算。 aggregateMessages具有triptsendTODst的优点,当数据的维数过多时候 ,我们只选择需要处理的数据去进行计算即可。如下图列举一个例子:社交网站中,人与人之间的联系往往是必不可少的,就如现实生活中,我们原创 2016-11-17 21:19:40 · 4451 阅读 · 0 评论