- 博客(53)
- 收藏
- 关注
原创 kafka avro序列化读写消息
kafka avro序列化读写消息avro是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting领导开发的一种数据序列化系统。avro具有支持二进制的序列化方式具有丰富的数据结构,可以持久化数据,快速的处理大量数据等优点。kafka与avro的结合能更高效的处理大数据。在使用avro之前,我们需要提前定义好Schema信息(Json格式),在本案例中,我们定义了一个用户行为...
2019-01-14 23:10:08
5567
原创 ESRI包 做空间数据处理
ESRI包做空间数据处理1.WKTWKT(well-known text)是一种文本标记语言,用于表示矢量数据中的几何对象,在数据传输与数据库存储时,常用到它的二进制形式,即WKB(well-known binary)。WKT与WKB在GIS中的重要作用在于,它们能利用文本简洁明了的表达矢量空间要素的几何信息,使得几何信息能以字段的形式存储于数据库中。WKT 示例"MULTIPOLYGON...
2019-01-07 22:45:41
549
原创 Spark DataFrame 添加自增id
Spark DataFrame 添加自增id在用SparkSQL 处理数据的时候,经常需要给全量数据增加一列自增ID序号,在存入数据库的时候,自增ID也常常是一个很关键的要素。在DataFrame的API中没有实现这一功能,所以只能通过其他方式实现,或者转成RDD再用RDD的 zipWithIndex 算子实现。下面呢就介绍两种实现方式方式一:利用窗口函数// 加载数据val datafr...
2018-12-13 22:44:26
6919
4
原创 Spark -- 数据的特征缩放(Feature scaling)
Spark – 数据的特征缩放(Feature scaling)特征缩放:有的叫数据归一化,有的叫数据标准化,其实两者有着一些差别,但是大多数时候都是表达的一个意思,它的目的就是使数据缩小范围。具体的介绍请参照维基百科。在spark中就提供了常用的这几种特征缩放方法NormalizerStandardScalerMinMaxScalerMaxAbsScaler在spark提供的这...
2018-12-06 13:25:41
488
原创 基于 SparkGraphx 实现 适用于位置信息的 DBScan聚类
基于 SparkGraphx 实现的 DBScan聚类关于DBScan算法的详细介绍请参见维基百科https://en.wikipedia.org/wiki/DBSCANGraphx 实现Dbscan 图解
2018-11-14 23:03:47
1810
8
原创 spark做描述性统计
spark datafram 的 “summary”在做数据探索性分析的时候,有几个比较重要的数值,,它们能简要的概括数据的分布情况,它们包括分位数、均值、最值等。在R语言中,有个summary函数,可以返回这些数据摘要本文所使用的数据集以鸢尾花数据集为例 summary(iris) Sepal.Length Sepal.Width Petal.Length P...
2018-11-13 23:22:39
3128
原创 编程不只是工作 -- R语言的赞美包
编程不只是工作 – R语言的赞美包在R语言中有这么一个包,叫做“praise”# 安装install.packages("praise")#加载library(praise)在安装加载之后,只要调用一下函数 praise(),他就会开始赞美你,而且还会变着花样称赞你 praise()[1] "You are well-made!" praise()[1] &quot
2018-10-27 17:37:12
560
原创 scala 实现:判断点是否在多边形内的算法
判断点是否在多边形内的算法在这里呢主要用到的是射线法,具体的介绍请看这篇介绍,讲得非常详细http://www.html-js.com/article/1517首先我们可以自己简单定义一个Point类case class Point(var x:Double ,var y:Double) { def getPoint = Point.apply(x,y)}下面是实现过程 ...
2018-10-16 11:51:42
909
原创 scala实现 二维点集排序
算法思想1.首先计算出凸多边形的重心点2.构建原点到重心点的向量,作为参照向量3.分别计算重心点和各个定点组成的向量与参照向量之间的夹角4.根据夹角大小进行排序def tdimSort(plist: List[Point]) = { //求多边形的重心 val orthocenter = Point(plist.map(_.x).sum / plist.size, pl...
2018-10-15 23:17:41
702
原创 scala 实现凸包算法
什么是凸包(Convex Hull)请看维基百科https://zh.wikipedia.org/wiki/凸包简单的想,在二维平面,就是所有的点组成的最外层的凸多边形算法思路本文锁使用的方法是:包裹法(Jarvis步进法)从上面的两个图可以看到:以凸包上相邻的两点连成的直线,所有的点都在该直线的同一侧非凸包上的点连成的直线,所有的点分布在直线的两侧算法实现 /**...
2018-09-26 23:00:40
314
原创 大数据时代的“小数据”系列2 随机游程检验
什么是游程检验游程检验的作用scala实现随机游程检验 /** * RunsTest * @param serise **/ def runsTest(serise: Seq[Int]) = { if (serise.distinct.length > 2) { println("the serise need 0-1 de...
2018-09-09 01:17:45
2107
原创 大数据时代的“小数据”系列1 cox-stuart趋势检验
大数据时代的“小数据”什么是趋势检验为什么要用趋势检验/** * CoxSturt趋势检验 * @param timeSeries * @param AlternativeHypothesis * @return */ def CoxSturt(timeSeries: Seq[Double], Alternati...
2018-08-11 01:06:02
4621
1
原创 scala 实现余弦相似度
scala 简单实现余弦相似度余弦相似度:也叫鱼线距离,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。余弦相似度广泛应用于机器学习领域。https://baike.baidu.com/item/%E4%BD%99%E5%BC%A6%E7%9B%B8%E4%BC%BC%E5%BA%A6/17509249本...
2018-08-04 21:09:27
4091
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅