SparkMLlib----数理统计的基本概念

基本统计量

数理统计中,基本统计量包括数据的平均值、方差,这是一组求数据统计量的基本内容。在MLlib中,统计量的计算主要用到Statistics类库,如下表:

类型名称 释义
colStats 以列为基础计算统计量的基本数据
chiSqTest 对数据集内的数据进行皮尔逊距离计算,根据参量的不同,返回值格式有差异
corr 对两个数据集进行相关系数计算,根据参量的不同,返回值格式有差异
从表中可看出,Statistics类中不同的方法代表不同的统计量的求法

统计量的基本数据

colstats是Statistics类计算基本统计量的方法,这里需要注意的是,其工作和计算是以列为基础进行计算,调用不同的方法获得不同的统计量值,其方法如下表所示:

方法名称 释义
count 行内数据个数                         
Max 最大数值单位
Mean 最小数值单位
normL1 欧几里德距离
normL2 曼哈顿距离
numNonzeros                       不包含0值的个数
variance 标准差

数据的均值和标准差

这里需要求数据的均值和标准差,在自己的磁盘下建立一个文件,加入下面一组数据

1
2
3
4
5
6
7
8
代码部分参考代码实战部分

距离计算

除了一些基本统计量的计算,colStats方法中还包括两种距离的计算,分别是normL1和normL2,代表欧几里得距离和曼哈顿距离。这两种距离主要用以表达数据集内部长度的常用算法。具体见代码

相关系数计算

相关系数里面包括皮尔逊系数和斯皮尔曼相关系数,在代码时间中我分别用在了两组数据的相关系数计算和单个数据集之间相关系数的计算,具体使用参考代码部分

分层抽样

  分层抽样是一种数据提取算法,先将总体的单位按照某种特征分为若干次级总体(层),然后再从每一层内进行单纯的随机取样,组成一个样本的统计学计算方法。这种方法以前常常用于数据量比较大,计算处理非常不方便的情况。

  一般抽样时,将总体分成互不交叉的层,按照一定的比例,从各层次独立的抽取一定数量的个体,将各层次取出的个体合在一起作为样本,这种抽样方法是一种分层抽样。

  在MLlib中,使用Map作为分层抽样的数据标记,一般情况下,Map的构成是[key,value]格式,key作为数据组,而value作为数据标签进行处理。下面建立一个数据集,如下:

aa
bb
cc
aaa
bbb
ccc
对数据集的分层抽样详细请参考代码部分

假设检验

常用的假设检验方法是卡方检验。卡方检验是一种常用的假设检验方法,能够较好的对数据集之间的拟合度、相关性和独立性进行验证。MLlib中规定常用的卡方检验使用的数据集一般为向量和矩阵。

                                                     假设检验的常用术语介绍

自由度                                                             总体参数估计量中变量值独立自由变化的数目                                                
统计量 不同方法下的统计量
P值 显著性差异指标
方法 卡方检验使用方法
卡方检验使用了皮尔逊计算法对数据集进行计算,得到最终结果P值,一般情况下,P<0.05是指数据集不存在显著性差异。

详细操作请看代码部分。

随机数

RandomRDDS类是随机数生成类,详细看代码部分

代码

package mllib

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.linalg.{Matrices, Vectors}
import org.apache.spark.mllib.random.RandomRDDs
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by 汪本成 on 2016/8/4.
  */
object MLlibTJ {

  //屏蔽不必要的日志显示在终端上
  Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
  Logger.getLogger("org.apache.eclipse.jetty.server").setLevel(Level.OFF)

  //程序入口
  val conf = new SparkConf().setAppName("MLlibTJ").setMaster("local[1]")
  val sc = new SparkContext(conf)

  val SUMMARYFILE_PATH = "G://c.txt"
  val CORRECTFILE_X_PATH = "G://x.txt"
  val CORRECTFILE_Y_PATH = "G://x.txt"
  val CORRECTFILE_SINGLE_PATH = "G://d.txt"
  val STRATIFIEDFILE_PATH = "G://e.txt"

  def main(args: Array[String]) {

    use_Summary1(SUMMARYFILE_PATH)
//      [4.5]
//      [6.0]

    use_Summary2(SUMMARYFILE_PATH)
//      [36.0]
//      [14.2828568570857]

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《数理统计基本概念李泽慧pdf》是一本专门介绍数理统计基本概念的资料。数理统计是应用数学方法来研究随机现象的一门学科,它主要关注如何通过对一组观测数据进行处理和分析来得出有关总体特征的推断。 在这本资料中,李泽慧首先介绍了数理统计基本概念,如总体、样本、随机变量、统计量等。总体指的是研究对象的全体,而样本是从总体中选取的一部分个体。在统计过程中,我们通常会对样本进行观测和测量,得到一组样本数据。 接着,李泽慧详细讲解了概率分布及其特征。概率分布描述了随机变量的取值与其概率之间的关系。常见的概率分布有离散分布和连续分布。在统计分析中,我们经常使用参数来刻画概率分布的特征,例如均值、方差等。同时,李泽慧还介绍了常见的概率分布,如正态分布、二项分布等。 此外,李泽慧还讨论了数理统计的推断方法,包括参数估计和假设检验。参数估计是利用样本数据来推断总体特征的方法,它可以通过最大似然估计、矩估计等方法进行。而假设检验则是用来验证关于总体特征的假设是否成立的方法。通过设立原假设和备择假设,并进行适当的假设检验统计量计算和判断,我们可以对总体特征作出推断。 总之,《数理统计基本概念李泽慧pdf》是一本全面介绍数理统计基本概念的资料,它涵盖了总体、样本、概率分布、参数估计和假设检验等重要内容,并提供了具体的定义和方法。这本资料对于初学者和对数理统计感兴趣的人士来说是一本很有价值的参考书。 ### 回答2: 《数理统计基本概念李泽慧pdf》是一本关于数理统计基本概念的教材或学习资料。数理统计是应用数学的一门学科,研究收集、整理、分析和解释数据的方法和原理。这本pdf涵盖了数理统计基本概念,可以帮助读者理解数理统计的基础知识和方法。 首先,数理统计研究的对象是数据。数据是对某一现象进行测量或观察得到的结果。在数理统计中,数据以变量的形式呈现,可以是定量变量或定性变量。定量变量可以进行数值计量,如身高、体重等;定性变量是没有数值大小的变量,如性别、颜色等。 其次,数理统计中的一个重要概念是概率分布。概率分布描述了一个变量的所有可能取值及其出现的概率。常见的概率分布有正态分布、泊松分布、指数分布等。 另外,样本和总体也是数理统计中的重要概念。总体是指研究对象的全体,而样本是从总体中抽取的一部分观测结果。通过对样本进行统计分析,可以对总体的特征进行推断。 此外,数理统计中还有估计和假设检验的概念。估计是根据样本数据推断总体平均值、方差等参数的过程,常见的估计方法有点估计和区间估计。假设检验是根据样本数据判断总体参数是否符合某种假设,常用的假设检验方法有t检验、方差分析等。 总之,《数理统计基本概念李泽慧pdf》是一本涵盖了数理统计基本概念的教材或学习资料,通过阅读和学习该资料,可以帮助读者理解数理统计的基础知识和方法,包括数据、概率分布、样本与总体、估计和假设检验等概念。 ### 回答3: 《数理统计基本概念》是李泽慧编写的一本关于数理统计基础知识的PDF教材。数理统计是统计学的一门重要分支,主要研究概率统计与数理统计方法在实际问题中的应用。这本教材主要从基本概念入手,系统地介绍了数理统计的相关内容。 教材首先介绍了概率论的基础知识,如概率的定义、加法定理、条件概率等。然后,通过详细的数学推导,引入了随机变量和概率分布,包括离散型随机变量和连续型随机变量的概念与性质。接着,教材介绍了多个重要的离散分布和连续分布,如二项分布、正态分布等,并深入讨论了它们的性质和应用。 随后,教材转向了统计学的基本概念。它详细介绍了随机样本和样本分布的定义,以及描述统计量、抽样分布的概念。此外,教材还介绍了常用的统计推断方法,如参数估计和假设检验,并给出了具体的计算步骤和实际应用的例子。 最后,教材还简要介绍了简单线性回归分析和相关性分析的基本方法。它解释了回归和相关性的概念,并详细介绍了两者的计算公式和应用场景。 总的来说,《数理统计基本概念》这本教材系统地介绍了数理统计的基础知识,涵盖了概率论、随机变量、概率分布、统计推断以及回归分析等内容。它既适用于学习数理统计的初学者,也适用于需要复习和巩固基础知识的人群。教材内容丰富,具有很高的实用性,对于提高统计学应用能力有较好的指导作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值