大数据
文章平均质量分 74
k_wzzc
wzzc
展开
-
flink自定义source与自定义sink
flink自定义source与自定义sink原创 2019-05-06 23:39:36 · 7242 阅读 · 2 评论 -
Flink初体验 -- Word Count
Flink初体验 – Word Countobject WordCount { def main(args: Array[String]): Unit = { /** * flink 的运行模型 * 1.DataSource * 2.Transformation * 3.DataSink */ // 获取环境,类...原创 2019-05-31 23:34:21 · 207 阅读 · 0 评论 -
Flink 实践:侧输出
什么是侧输出在flink处理数据流时,我们经常会遇到这样的情况:在处理一个数据源时,往往需要将该源中的不同类型的数据做分割处理,如果使用 filter算子对数据源进行筛选分割的话,势必会造成数据流的多次复制,造成不必要的性能浪费;flink中的侧输出就是将数据流进行分割,而不对流进行复制的一种分流机制。flink的侧输出的另一个作用就是对延时迟到的数据进行处理,这样就可以不必丢弃迟到的数据。侧...原创 2019-06-14 23:09:23 · 5672 阅读 · 0 评论 -
Scala实现:KD-Tree(k-dimensional tree)
Scala实现:KD-Tree(k-dimensional tree)kd-tree是一种分割k维数据空间的数据结构。主要应用于多维空间数据的搜索,经常使用在SIFT、KNN等多维数据搜索的场景中,以KNN(K近邻)为例,使用线性搜索的方式效率低下,k-d树本质是对多维空间的划分,其每个节点都为k维点的二叉树kd-tree,因此可以大大提高搜索效率。KD-Tree的构建步骤:上述文字引自李...原创 2019-11-27 22:32:15 · 683 阅读 · 0 评论 -
Spark 本地连接OSS
Spark 本地连接OSS1. 对象存储 OSS阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。在使用Hadoop和Spark及其周边系统来处理和分析自己的数据时,则需要创建阿里云的E-MapReduce集群进行处理。但是有时候,我们需要在本地环境下对程序进行调试,所以 本地的Spark环境能连接OSS...原创 2019-10-28 22:13:47 · 2256 阅读 · 1 评论 -
Flink:时间与窗口
Flink学习笔记:时间与窗口一 时间在flink中定义了三类时间:事件时间(Event Time):即事件实际发生的时间。处理时间(Processing Time):事件被处理的时间。进入时间(Ingestion Time):事件进入流处理框架的时间下图很好的说明了三种时间的区别与联系其中时间时间和处理时间是比较常用,根据应用程序的不同以及结果准确性要求可以定义不同的时间,...原创 2019-05-28 22:17:46 · 4750 阅读 · 2 评论 -
Spark实现高斯朴素贝叶斯
Spark实现高斯朴素贝叶斯import breeze.stats.distributions.Gaussianimport org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.DenseVectorimport org.apache.spark.sql.SparkSessionimpo...原创 2019-06-07 23:40:43 · 423 阅读 · 0 评论 -
Flink SQL 自定义UDAF
Flink SQL 自定义UDAF创建一个数据源class udafSource extends RichSourceFunction[Double] { override def run(ctx: SourceFunction.SourceContext[Double]) = { while (true) { val d = scala.math.random...原创 2019-07-08 00:12:09 · 3344 阅读 · 1 评论 -
Flink Keyed State实践:实现蒙特卡洛模拟求Pi
flink中的状态分为两类:Keyed State、Operator State;Keyed State是只能定义在KeyedStream的状态, 每一类状态都有 Managed State和Raw state两种托管方式;flink中内置了以下几种托管的状态:ValueState<T>:单值状态ListState<T>:多值状态ReducingState<T...原创 2019-06-28 22:45:34 · 498 阅读 · 0 评论 -
大数据之统计学基础(一) -- 描述统计
描述统计1.描述数据水平的统计量平均数(平均数反映了一组数的平均水平,平均数会受到极端值的影响),在计算时一般使用算术平均数:算术平均数 xˉ=∑i=1nxin算术平均数 \ \ \bar{x} = {\displaystyle\sum_{i=1}^nx_i \over n}算术平均数 xˉ=ni=1∑nxi分位数:四分位数、中位数(...原创 2019-07-21 17:37:13 · 1509 阅读 · 0 评论 -
Spark DataFrame中rollup和cube使用
Spark DataFrame中rollup和cube使用我们平时在做报表的时候,经常会有各种分维度的汇总计算,在spark中我们最常用的就是groupBy操作,groupBy就是按照给定的字段名分组,后面接sum、count、avg等聚合操作;在spark中也提供了rollup、cube这样的分组函数,接下来本文就以一个实例展示一下这两个函数的作用。我们先来看个需求:下面的表是某公司最近两年...原创 2019-07-28 20:06:54 · 956 阅读 · 0 评论 -
大数据之统计学基础(二):随机变量及其概率分布
随机变量及其概率分布随机变量(r.v)是研究随机试验中的一串事件:比如掷一颗骰子,用X表示骰子的点数,由于X的取值我们无法确定,所以称X是一个随机变量,随机变量的取值随机会而定。1.随机变量的类型:1.1离散型:1.1.1 离散型r.v.X :离散型 r.v.X取有限或可数多个值:离散型随机变量的分布 (1)P(X=xk)=Pk k=1,2,3...nP(X...原创 2019-08-06 21:08:12 · 2805 阅读 · 0 评论 -
Flink实践: 异步IO
1.为什么需要异步IOflink在做实时处理时,有时候需要和外部数据交互,但是通常情况下这个交互过程是同步的,这样就会产生大量的等待时间;而异步操作可以在单个函数实例中同时处理多个请求,并且同时接收相应。这样等待时间就平均分摊到了多个请求上,大大减少了请求的等待时长,可以提高实时处理的吞吐量。2.使用flink异步IO的先决条件需要所连接的数据库支持异步客户端在没有异步客户端的情况下,...原创 2019-08-14 23:15:36 · 1058 阅读 · 0 评论 -
Spark实现Canopy聚类算法
Spark实现Canopy聚类算法为什么需要Canopy算法Canopy算法一般是为其他聚类算法的一种聚类方法,常用的聚类如 K-means 等聚类算法都需要事先k值(即聚类个数),并且会随机选择k个初始聚类中心。这种实现指定的k和随机初始化的聚类中心不仅会降低聚类算法的效率,而且得到的结果也可能是局部最优的。Canopy算法就可以解决以上问题。Canopy算法的步骤Canopy算法的核心...原创 2019-05-21 23:01:16 · 1223 阅读 · 0 评论 -
Flink实现高斯朴素贝叶斯
Flink实现高斯朴素贝叶斯在之前的文章中提到了多项式的朴素贝叶斯,在spark的ML里也实现了多项式的朴素贝叶斯和伯努利朴素贝叶斯,在实际情况当中我们处理的变量除了离散型,还有连续型。在对这类数据使用朴素贝叶斯的时候,我们通常会假定变量服从高斯分布。然后再进行概率计算。Flink代码实现在这里,使用的数据集是鸢尾花数据集// 创建一个鸢尾花数据类/** * Created by ...原创 2019-04-27 23:59:40 · 643 阅读 · 0 评论 -
CH2_(扩展)线性感知机算法(Pocket PLA)及其Spark实现
Spark 实现优化的线性感知机算法:Pocket PLAimport breeze.linalg.{DenseVector =&gt; densevector}import org.apache.spark.ml.feature.VectorAssemblerimport org.apache.spark.ml.linalg.DenseVectorimport org.apache.sp...原创 2019-03-16 21:56:00 · 384 阅读 · 2 评论 -
基于 SparkGraphx 实现 适用于位置信息的 DBScan聚类
基于 SparkGraphx 实现的 DBScan聚类关于DBScan算法的详细介绍请参见维基百科https://en.wikipedia.org/wiki/DBSCANGraphx 实现Dbscan 图解原创 2018-11-14 23:03:47 · 1809 阅读 · 8 评论 -
Spark -- 数据的特征缩放(Feature scaling)
Spark – 数据的特征缩放(Feature scaling)特征缩放:有的叫数据归一化,有的叫数据标准化,其实两者有着一些差别,但是大多数时候都是表达的一个意思,它的目的就是使数据缩小范围。具体的介绍请参照维基百科。在spark中就提供了常用的这几种特征缩放方法NormalizerStandardScalerMinMaxScalerMaxAbsScaler在spark提供的这...原创 2018-12-06 13:25:41 · 488 阅读 · 0 评论 -
Spark DataFrame 添加自增id
Spark DataFrame 添加自增id在用SparkSQL 处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在DataFrame的API中没有实现这一功能,所以只能通过其他方式实现,或者转成RDD再用RDD的 zipWithIndex 算子实现。下面呢就介绍两种实现方式方式一:利用窗口函数// 加载数据val datafr...原创 2018-12-13 22:44:26 · 6919 阅读 · 4 评论 -
kafka avro序列化读写消息
kafka avro序列化读写消息avro是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting领导开发的一种数据序列化系统。avro具有支持二进制的序列化方式具有丰富的数据结构,可以持久化数据,快速的处理大量数据等优点。kafka与avro的结合能更高效的处理大数据。在使用avro之前,我们需要提前定义好Schema信息(Json格式),在本案例中,我们定义了一个用户行为...原创 2019-01-14 23:10:08 · 5567 阅读 · 0 评论 -
Spark DataFrame 用户自定义(聚合)函数
Spark Sql 自定义函数在Spark中,自定义函数可以分为两种:UDF(User-Defined-Function),即最基本的自定义函数。类似 lit、sqrt之类的函数,数对每一条数据处理。输入和输出是一对一的关系。UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数。类似sum、count之类的函数,是对数据按一定规则分组之后的...原创 2019-01-21 21:26:31 · 5688 阅读 · 1 评论 -
判别三连之二:Spark 分布式实现距离判别分析
Spark 分布式实现距离判别分析距离判别设有两个总体G1,G2,从第一个总体抽取n个样本,从第二个总体中抽取m个样本,每个样本都有p个测量指标。取任一样本实测指标为X=(x1,x2,……xp)’,分别计算X到两个总体的距离D1,D2,按距离最近准则判别归类。距离计算公式(马氏距离):判别公式:数据展示与说明某商场从市场随机抽取20中品牌的电视机进行调查,其中13中畅销,7种滞销...原创 2019-02-27 22:23:35 · 476 阅读 · 0 评论 -
判别三连之一:Spark 分布式实现线性判别分析(二分类问题)
Spark 分布式实现线性判别分析(二分类问题)线性判别分析(LDA)线性判别分析(linear discriminant analysis)是一种经典的线性学习方法,在二分类问题上最早由Fisher在1936年提出,亦称Fisher线性判别。其中心思想是:将样本集投影到一条直线上,使投影到直线上的同类样本之间差异尽可能的小;使不同类样本间的差异尽可能的大。线性判别分析是一种有监督的分类学习方...原创 2019-02-24 23:45:19 · 865 阅读 · 0 评论 -
判别三连之三:Spark 分布式实现贝叶斯判别
Spark 分布式实现贝叶斯判别贝叶斯公式假设事件B1,B2...Bn是样本空间Ω的一个分割,且他们各自的概率为P(B1),P(B2),P(Bn)假设事件 B_1,B_2...B_n 是样本空间Ω的一个分割,且他们各自的概率为P(B_1),P(B_2),P(B_n)假设事件B1,B2...Bn是样本空间Ω的一个分割,且他们各自的概率为P(B1),P(B2),P(Bn)A是事件Ω...原创 2019-03-03 18:16:41 · 566 阅读 · 0 评论 -
scala 实现余弦相似度
scala 简单实现余弦相似度余弦相似度:也叫鱼线距离,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。余弦相似度广泛应用于机器学习领域。https://baike.baidu.com/item/%E4%BD%99%E5%BC%A6%E7%9B%B8%E4%BC%BC%E5%BA%A6/17509249本...原创 2018-08-04 21:09:27 · 4091 阅读 · 0 评论 -
spark做描述性统计
spark datafram 的 “summary”在做数据探索性分析的时候,有几个比较重要的数值,,它们能简要的概括数据的分布情况,它们包括分位数、均值、最值等。在R语言中,有个summary函数,可以返回这些数据摘要本文所使用的数据集以鸢尾花数据集为例 summary(iris) Sepal.Length Sepal.Width Petal.Length P...原创 2018-11-13 23:22:39 · 3128 阅读 · 0 评论
分享