SparkML
文章平均质量分 88
legotime
这个作者很懒,什么都没留下…
展开
-
SparkML之假设性检验(一)
假设性检验:统计推断一个重要问题是假设性检验。何为假设性检验,一句话概括就是:之前提出的分布,可不可以接受。就是根据样本,然后对提出的假设做出判断:接受or拒绝具体关于假设性检验的说明可以参考文献1。1、单个总体 N(μ,) 均值 μ 的检验其中μ是均值,是方差。假设检验有以下三种:2、Z检验 (已知,μ未知)Z检验是一般用于大样本(即样本容量大于30)标准原创 2016-04-10 16:40:11 · 2677 阅读 · 0 评论 -
SparkML之分类(三)支持向量机(SVM)
一、数学原理支持向量机(SVM)是由Vladimir N. Vapnik和 Alexey Ya. Chervonenkis在1963年提出的。SVM的提出解决了当时在机器学习领域的“维数灾难”,“过学习”等问题。它在机器学习领域可以用于分类和回归(更多信息可以参考文献1)。SVM在回归可以解决股票价格回归等问题,但是在回归上SVM还是很局限,SVM大部分会和分类放在一起。所以本节主原创 2016-07-06 07:40:49 · 7136 阅读 · 0 评论 -
SparkML之分类(四)决策树
说起树,不得不首先提起的二个人就是Leo Breiman和John Ross Quinlan ,他俩在树這快做了很大的贡献,如果对他所做工作感兴趣的可以访问参考文献[1][5]现在我们抛开一切,从我们最熟悉的分段函数开始,如下函数:函数图像如下:图1:分段函数matlab代码如下:x = -10:0.1:10;y = (-x-2).*(x =-1&x 1);原创 2016-07-06 07:41:37 · 5605 阅读 · 0 评论 -
SparkML之聚类(二)高斯混合模型(GMMs)
1、闲聊在讲高斯混合模型,我们先抛开一切,来一些推导。推导前,假设你认可两个统计学基础的两个定理(1)大数定理(2)中心极限定理联合实际情况就是说,假如我们坐在广州地铁1号线的某个地方进行蹲点1天,记录下地铁全部女性的身高。这一天下来她们的身高的均值和方差。和我们第二天继续第一天的工作得到的均值和方差是接近的。而且服从高斯分布。下面可以证明每个点产生的概率值联合起来为什么是原创 2016-07-06 07:42:54 · 6741 阅读 · 0 评论 -
SparkML之推荐算法(一)ALS
ALS(alternating least squares ):交替最小二乘法---------------------------------------------------------------------原理应用Matlab 主成分分析应用alsSpark源码SparkML实验-------------------------------------------原创 2016-07-06 07:45:01 · 25239 阅读 · 5 评论 -
SparkML之聚类(一)Kmeans聚类
------------------------------目录--------------------------------------------------Kmeans理论Matlab实现Spark源码分析Spark源码Spark实验-------------------------------------------------------------------原创 2016-07-06 07:42:20 · 10148 阅读 · 0 评论 -
SparkML之特征提取(一)主成分分析(PCA)
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法.--------------------------------------------目录--------------------------------------------------------理论和数据见附录Spark 源原创 2016-07-06 07:43:39 · 7962 阅读 · 0 评论 -
SparkML之特征提取(二)词项加权之DF-IDF
词项加权(Term Weighting)的目的是给分词后的词语加上权重。重要的词项给予更高的权重。那么当我们对文本进行检索的时候。比如当我们在淘宝购物,输入“那本语义分析类的书最好”,那么我们进行Term Weighting可能是:“那本:0.1,语义分析:0.8,类:0.2,的:0.1,书:0.5,最好:0.4”.那么当有这些权重时,对于突出搜索重点是很有帮助的。最近因强调非结构化数原创 2016-07-06 07:44:20 · 4791 阅读 · 2 评论 -
Spark应用(一)提取RDD内部信息和信息放入RDD
提取RDD内部信息 对于提取RDD内部信息有的人或许认为是一件非常简单的事情,“直接foreach操作不就行了?”。如果RDD不是为了分布式式计算。那么這样的逻辑就完全可以。直接在外部顶一个可变量A,然后遍历RDD,A放入RDD遍历逻辑中,遍历完之后,就可以提取RDD内部的信息。但是RDD是为分布式而设计,也就是说,你這样的逻辑放在一个分布式中就行不通了。下面看一个例子im原创 2017-03-08 13:46:00 · 4441 阅读 · 0 评论 -
Spark应用(二) 二次排序
二次排序就是对按照从左往右,从上往下排好序数据:c,18,1956a,20,1356d,5,1956f,18,1256h,3,2956c,18,2008y,8,956a,18,1956并保存为mySec.txt,放入HDFS如下:需求1需求,排序完如下:(a,18,1956)(a,20,1356)(c,18,1956)(c,18,2008)(d,5,原创 2017-03-08 13:47:00 · 602 阅读 · 0 评论 -
SparkML之分类(二)logistics回归
前面已经陈述过logistic的理论的了,在此就不赘述了(http://blog.csdn.net/legotime/article/details/51312393)Logistic 函数(分类时有个名字叫Sigmoid函数)如下:logistic函数早期是用于人口预测的。但随着人们对其的应用扩展,开始慢慢应用于分类问题,而且是神经网络中一个经常使用的过渡函数,图1是将log原创 2016-07-06 07:40:17 · 5617 阅读 · 0 评论 -
SparkML之分类(一)贝叶斯分类
1.1、贝叶斯定理贝叶斯定理:用来描述两个条件概率之间的关系。比如P(A/B)和P(B/A),那么可以推导: ,我们下图进行进行说明: 假设:,那么有, , :那么有贝叶斯定理公式:1.2、朴素贝叶斯分类器( Naive Bayes Classifi原创 2016-07-06 07:39:39 · 6029 阅读 · 0 评论 -
SparkML之回归(三)保序回归
在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。------------------------------------前言背景:(1)在医学领域药物剂量反应中,随着药物剂量的增加,疗效和副作用会呈现一定趋势。比如剂量越高,疗效越高,剂量越高,毒原创 2016-07-06 07:38:56 · 4751 阅读 · 0 评论 -
SparkML之相关性分析
相关性分析 相关性分析是考察两个变量之间的线性关系的一种统计方法,用于衡量两个变量因数的相关程度但是,请记住,相关性不等于因果性。接下来结合下图的txt格式的文件来对相关性分析进行了解两个重要的要素 从非常直观的分析思路来说,比如分析身高和体重,我们会问个问题:.身高越高,体重是不是越重?问题细分为两个方向:1,身高越高,体重越重还是越轻。2,身高每增加 1 ,体重又是增加多少或减少多少。這就是相原创 2016-04-08 08:51:34 · 6847 阅读 · 0 评论 -
SparkML之DistributedMatrix(二)BlockMatrix原理
Spark中DistributedMatrix的内部原理下面通过阅读源码,同时结合下面矩阵来说明一下BlockMatrix内部的原理1.CoordinateMatrix中文的理解意思是坐标矩阵,他的存储形式是COO(具体的存储可以查看文献1),存储的函数:MatrixEntry(i: Long, j: Long, value: Double),CoordinateM原创 2016-04-07 21:28:27 · 2690 阅读 · 1 评论 -
SparkML之DistributedMatrix(一)
===========================目录==============================================分布矩阵(Distributed matrix)------行矩阵(RowMatrix)------标记行矩阵(indexed RowMatrix)------坐标矩阵(CoordinateMatrix)------分块矩阵(Bl原创 2016-04-07 14:00:04 · 2505 阅读 · 0 评论 -
SparkML数据类型(DataTypes)之向量和数组
============目录================================================本地向量(local vector)标记点(Labeled point)本地矩阵(Local matrix)原创 2016-04-07 10:06:01 · 2449 阅读 · 0 评论 -
SparkML之假设性检验(二)分布拟合检验
1.什么是分布拟合检验在实际问题中,有时不能预知总体服从什么类型的分布,这时就需要根据样本来检验关于分布的假设。比如依据大数定理,我们假设一组生产零件是成正态分布的,但是这个所为的成正态分布也只是我们的假设,为了验证我们的假设那么就需要对这个分布进行检验,这就是分布拟合检验 ,也称之为:非参数检验原创 2016-04-11 09:56:13 · 2426 阅读 · 0 评论 -
SparkML之回归(一)线性回归
----------------------------目录-----------------------------------------------------------------------线性回归理论-------------------------------------------------------一元线性回归--------------------原创 2016-07-06 07:36:43 · 12429 阅读 · 0 评论 -
SparkML之回归(二)岭回归和Lasso阐述及OLS,梯度下降比较
岭回归(RidgeRegression)它的上一级称之为Tikhonov regularization,是以Andrey Tikhonov命名的。Lasso(least absolute shrinkage and selection operator)。两者都经常用于病态问题的正规化。在前面部分已经说了,假设我们知道矩阵A和向量b,我们希望找到一个向量x,有:Ax = b标准原创 2016-07-06 07:38:21 · 5688 阅读 · 0 评论 -
spark应用(三)文本分类
一、特征提取1、什么是特征提取? 对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一种方法(百度百科)。或者参考多方面的解释:http://www.igi-global.com/dictionary/feature-extraction/10960特征提取简单来说就是从一堆数据中,提取数据,并变成我们熟悉的数据形式(比如从图片中提取像素点,并变成RGB数字原创 2017-03-08 13:48:04 · 4039 阅读 · 1 评论