![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scala
文章平均质量分 53
DataPulse-辉常努腻
码出未来 let's coding!
展开
-
flink cep 跳过策略 AfterMatchSkipStrategy.skipPastLastEvent() 匹配过的不再匹配 碧坑指南
指示匹配过程后的跳过策略今天讲的是 flink cep 如何实现 多个窗口之间的滚动匹配即避免以下这种情况出现,当然是否需要避免取决你的工作需求或者要学习什么东西flink cep pattern 代码然而你想要的是这样的匹配规则,则是匹配过一次之后就不再使用这条数据作为其他匹配的数据源修改匹配模式代码得到臆想的数据然后就可以得到我们想要的数据啦 看一下我的实际数据前方有危险这个方法的应用实际上是有问题的,我们来分析一下我们的规则是匹配过的数据不可以再次进行匹配,然而当我们设置了我们原创 2022-06-07 09:42:32 · 809 阅读 · 0 评论 -
准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)
准确率(Accuracy) 精确率(Precision) 召回率(Recall)和F1-Measure(精确率和召回率的调和平均值)Spark 构建分类模型学习分类模型的基础知识以及如何在各种应用中使用这些模型。分类通常指将事物分成不同的类别。在分类模型中,我们期望根据一组特征来判断事物的类别,这些特征代表了与物品、对象、事件或上下文相关的属性(变量)。最简单的分类形式是分为两个类别,即二分类。一般将其中一类标记为正类(记为 1),另外一类标记为负类(记为1 或者 0)。下图展示了一个二分类的简原创 2022-04-29 17:12:19 · 1513 阅读 · 0 评论 -
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,package dimensionalityreductionimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org.apache.spark.mllib.linalgimport org.apache.spark.mllib.linalg.{Matrix, SingularValueD原创 2022-04-28 21:46:20 · 2377 阅读 · 0 评论 -
PrincipalComponentAnalysis 主成分分析
PrincipalComponentAnalysis 主成分分析PrincipalComponentAnalysis 主成分分析1、概念介绍2、PCA变换3、“模型式”的PCA变换实现PrincipalComponentAnalysis 主成分分析1、概念介绍主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新“坐标轴”即被称为 主成分(Princip原创 2022-04-28 21:27:36 · 560 阅读 · 0 评论 -
随机数生成 Random data generation
Spark ml 随机数生成器RandomRDDs 是一个工具集,用来生成含有随机数的RDD,可以按各种给定的分布模式生成数据集,Random RDDs包下现支持正态分布、泊松分布和均匀分布三种分布方式。RandomRDDs提供随机double RDDS或vector RDDS。package basicstatisticsimport org.apache.log4j.{Level, Logger}import org.apache.spark.SparkContextimport org原创 2022-04-23 21:36:07 · 1897 阅读 · 3 评论 -
相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)
相关性CorrelationsCorrelations,相关度量,目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大(值越接近1或者-1), 当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示原创 2022-04-22 08:18:37 · 11031 阅读 · 0 评论 -
Spark 机器学习 概括统计 summary statistics [摘要统计]
概括统计 概括统计 summary statistics [摘要统计]读取要分析的数据,把数据转变成RDD[Vector]类型:然后,我们调用colStats()方法,得到一个MultivariateStatisticalSummary类型的变量:结果完整代码概括统计 summary statistics [摘要统计]单词linalg 分开linear + algebra: 线性代数对于RDD[Vector]类型的变量,Spark MLlib提供了一种叫colStats()的统计方法,调用该原创 2022-04-21 21:17:10 · 3135 阅读 · 0 评论 -
机器学习 spark.mllib 数据类型学习
机器学习 spark.mllib 数据类型学习package datatypeimport org.apache.spark.ml.linalg.Vectorsobject Demo1 { def main(args: Array[String]): Unit = { /** * 局部变量 * * 单词 * * dense: 稠密 * sparse: 稀疏 * * indices: index ar原创 2022-04-20 10:20:32 · 1270 阅读 · 0 评论 -
sqoop to hive GC overhead limit exceeded 大表抽取到hive中发生异常
如果你已经试过了别的博客提供的修改内存的方法,但是美效果的话,不妨看看我的解决办法。为什么Sqoop Import抛出这个异常?22/04/08 16:22:35 INFO mapreduce.Job: Task Id : attempt_1649398255409_0017_m_000000_0, Status : FAILEDException from container-launch.Container id: container_1649398255409_0017_01_000002E原创 2022-04-08 16:55:19 · 1723 阅读 · 0 评论 -
Scala Lazy 惰性加载变量 你知道吗?
Scala Lazy 惰性加载原写法;def main(args: Array[String]): Unit = { val result: Int = sum(13, 47) println("1. 函数调用") println("2. result = " + result) println("4. result = " + result) } def sum(a: Int, b: Int): Int = { println("3. sum调用原创 2021-12-10 20:09:55 · 752 阅读 · 0 评论 -
Scala【自定义while循环】
你用过自定义的while循环码?真厉害了Scalapackage com.li.chapter05import java.util.concurrent.locks.Conditionobject Test12_MyWhile { def main(args: Array[String]): Unit = { var n = 10 // 1. 常规的while循环 while (n >= 1){ println(n) n -= 1原创 2021-12-10 19:58:54 · 504 阅读 · 0 评论 -
scala 匿名函数的用法实操
1. => 什么意思=> 匿名函数(Anonymous Functions),表示创建一个函数实例。比如:(x: Int) => x + 1 和如下JAVA方法表示的含义一样:public int function(int x){ return x+1;}可以这么理解:=>左边 是输入参数,:后面int 是参数类型=>右边 当作函数体, 类似JAVA 的{}所有的函数在 scala 都是object (类的实例)2.=>用法原创 2021-12-10 09:20:33 · 430 阅读 · 0 评论 -
Scala中的yield关键字| for / yield示例
Scala yield关键字Scala中的yield关键字与for循环一起使用。它在每个for循环迭代中存储一个变量。存储的变量组合在一起,以创建与for循环在同一时间运行的新结构。例如,在映射上使用yield会为列表,数组向量等提供类似的映射结构。yield的语法是for (loop condition) yield variable;示例,使用yield与for循环,循环从1到5for (i <- 1 to 5) yield (i*5)输出结果scala.collection.i原创 2021-12-09 18:12:23 · 699 阅读 · 0 评论