统计学怎么求加权指数_我要自学生信之统计学:统计学概述(一)

文章的一开始我打算放一张图,让大家理解一下统计到底是在干什么,统计的基本流程是什么,本文旨在抛砖引玉,是我要学习生物信息学之统计学的第一篇文章。旨在帮助大家建立起一个初步概念。

4b11e7aae00e58b856cbb6b2bd6f9a94.png

数据的统计分析主要包括两个方面的内容:一是统计描述,主要是运用一些统计指标诸如均数、标准差以及统计表和统计图等,对数据的数量特征及其分布规律进行客观地描述和表达,不涉及样本推断总体的问题;二是统计推断,即在一定的置信度或概率保证下,根据样本信息去推断总体特征。统计推断通常包括参数估计和假设检验两个内容:参数估计是指用样本指标推断总体相应的指标,例如根据部分城市人群的原发性高血压患病率去估计整个城市的原发性高血压患病率,参数估计又分为点区间和区间估计,比如:已知样本量为200、均数为100,标准差为5,对总体均数进行估计,如果直接用100作为总体的均数,这种估计方法被称为点估计,由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值。所以就有了另一种估计方法区间估计,它是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减估计误差得到;假设检验是指由样本之间的差异推断总体之间是否可能存在差异,例如原发性高血压治疗药物在两组的疗效存在一定差别,假设检验回答这种差别是机会造成的,还是真实存在的。它又分为单尾检验和双尾检验,单尾是判断大于或者小于,双尾是判断是不是等于。

举一个形象的例子:设总体均数为μ,如果用参数估计是:求μ=?而假设检验则是:判断μ=100?(双尾检验) u>100?(单尾检验)

总计一下更清晰:

63fe9e55fa21ae3666c78e739bc43384.png

是不是有种恍然大悟的感觉!下面我来解释下大学中大家学的概率论于数理统计是怎么结合到一起的?

概率论:从已知分布出发,研究随机变量X的性质、规律、数学特征等;

数理统计:研究对象X的分布未知或只知道部分信息,需要观察它的取值(数据采集),通过分析数据来推断X服从什么分布或确定未知参数。

数理统计研究问题的主要方法:以部分数据信息来推断整体相关信息

这样大家对于两者的关系是不是清晰了一些,下面我来介绍下统计学中常用的一些概念

一、数据分析的方法可分为描述统计和推断统计

e24c772bb99f85d108d57a72acc23f35.png

描述统计:将一系列复杂数据浓缩成一个单一数字的便捷工具。比如:击球率,反映一个球员在赛场上的整体表现,它只是一个去除了单位性质用于比较的简单易行的数学工具。然而击球率也并非衡量球员能力的完美指标(完美是不存在的),也非全貌,但提供了一扇窗。

推断统计:推断统计是研究如何利用样本数据来推断总体特征的统计方法。比如,要了解一个地区的人口特征,不可能对每个人的特征一一进行测量;对产品的质量进行检验,往往是破坏性的,也不可能对每个产品进行测量。这就需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,这就是推断统计要解决的问题

二、数据的收集

总体:包含研究的全部个体(数据)的集合

样本:从总体中抽出的一部分元素的集合,实际情况通常是我们很难拿到总体的数据,用样本来代替总体是一个不错的选择

样本容量或样本量:构成样本的元素数目

有限总体:容量有限的总体;

无限总体:容量无限的总体,通常将容量非常大的有限总体也按无限总体处理。

参数:用来描述总体特征的概括性数字度量,这个概念有点抽象,比如总体标准差、总体平均数啊都是参数,由于总体数据通常是不知道的,所以参数也是一个未知数。因此我们需要进行抽样,根据样本估算总体参数。

统计量(statistic):用来描述样本特征的概括性数字度量,统计量是根据样本数据计算出来的一个量,他是样本的函数。通常我们所关心的样本统计量样本均数、样本标准差等。

三、数据的描述:

通常我们只能对样本进行描述,对样本的描述可以用统计量也可以用图表来表示

首先是统计量

bac7a10508220c27d14ac0ed902c6635.png

众数:体现出个体占据总体的频次情况,可用于定性数据和定量数据,一个字段多个定性数据,可对该字段相同定性数据进行聚合,了解到每个定性数据的总数量。

中位数:同样是一个描述中间位置的统计量,但是相比平均数,这个中间位置就是中位数,按照从大到小或者从小到大的顺序排列好,中间的位置就是中位数,如果有两位中位数那就相加之后除以2。如果一个数据的的分布中没有特别离谱的异常值,那么他们的中位数和平均数应该差不多。

平均数:描述数据中间位置的一个描述统计量,反应的是数据的集中趋势。但平均数容易受到异常值的影响,比如10个收入都为1万元的家庭和比尔盖茨比一下,那这组人群的的平均收入一定提高很多。

方差和标准差:衡量数据相对于平均值的分散程度,根据方差和标准差我们可以知道所观察的数据的分散情况。

你会发现大部分的数据都会在样本平均值的左右一个标准差内。到底多少呢?这个数值是68.2%

标准分:表征了距离均值的标准差的个数,标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。标准分还有个重要的作用,它可以把正态分布变为标准正态分布。

变异系数:样本标准差除以均值,用变异系数可以比较不同样本相对变异程度的大小。

协方差:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的,结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。协方差仅能进行定性的分析。

私以为统计学的核心就是研究变量与变量之间的关系

相关系数:相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数可以作定量的分析,看一看相关性到底有多大。

标准误:样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。

关于标准误这个概念很多人可能不了解,你想一下如果你只从总体中抽一次样本这样得到的均值和方差是否真的就能代表总体的均值或者方差呢?我们可不可以进行多次抽样,如果这样多次抽样后计算样本之间的标准差,标准差如果越小不就说明这些取样取的很好吗。

偏度:偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征,向左偏还是向右偏。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)。

峰度:峰度又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。随机变量的峰度计算方法为:随机变量的四阶中心矩与方差平方的比值。峰度包括正态分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)。峰度越大,越高。

频数:指变量值中代表某种特征的数(标志值)出现的次数,如果在频数分布图中更胖的话表明你的数据越分散。

还可以用一些图表来进行描述:只展示部分

7a56dbdc3f8640ebb40c38272ab36f91.png

四、常见数据的分布

实际上数据的分布也可以算作在描述里面,看个人的分类了。

6854bad672c8bd980a8e512c77496ac1.png

选择其中三个分布:二项分布、正态分布、卡方分布进行解释

正态分布:正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

在正态分布中我们通常认为在平均值左右三个标准差的范围内包含了大部分的数值。

二项分布:指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

卡方分布:若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

五、假设检验

1e39c44bfab4e34c11ae980e3732586d.png

假设检验:假设检验一般分为四个步骤,提出假设-确定显著水平-计算概率-推断是否接受假设。假设检验首先要对总体做出假设,一般应作两个假设,一个是无效假设,一个是备择假设。无效意指要比较两个参数之间没有真实的差异,那么备择就是与之相反。两个假设是对立的。

原假设和备择假设:原假设:根据检验结果准备予以拒绝或接受的假设,以H0表示;备择假设:与原假设不相容(即对立)的假设,以H1表示

拒绝域、显著性水平:拒绝域: 所使用的统计量可能取值的集合的某个子集合。如果根据观测值得出的统计量的数值属于这一集合,拒绝原假设;反之,接受原假设。显著性水平: 当原假设正确时,而被拒绝的概率的最大值,记为α。α的值一般取为0.05或0.01。

单尾/双尾假设检验:备择假设没有特定的方向性,称为双尾检测检验,单尾检测具有特定的方向性,并含有大于或者小于的假设检验。

P值:P值是指在一个特定的统计模型下,从样本数据计算出的估计值(如两组间样本均数差)等于观测值或比观测值更为极端的概率

六:回归与分类

这两块打算在数据挖掘这边讲解的,作为入门的话会比较困难一点。

七:多元分析

寻找多个变量的代表:主成分分析

把对象分类:聚类分析

八:其他非常重要的概念

概率:研究不确定性事件和结果,比如2008年的金融危机,恰恰是华尔街预测模型中极小可能发生的事件同时发生了。用概率的语言来说就是概率很低的事件一起发生。因此所有的预测模型都是以概率为基础的。

变量:说明某种特征的概念,例如击球率,变量在上一次和下一次的测量是可以变化的,比如这一次击球率是40%,下一次是50%。具体可以分为分类变量(比如性别:男或者女)、顺序变量(奖项:一等奖、二等奖、三等奖)、数值型变量(年龄:1、2、3)。数值型根据取值的不同又可以分为离散型变量(比如年级)和连续型变量(比如温度)。

同质:根据研究目的所确定的观察单位其性质应大致相同。观察单位是研究的基本单元,可以是一个人、一个地点、一只动物、一份生物样品等。同质即为观察单位所受的影响相同。

变异:即使性质相同的事物,如果观察同一指标,各观察单位之间由于存在个体差异,也会使测量结果不同,这种差异称为变异。变异即为在观察单位在同质基础上的个体差异。例如,同种族、同年龄、同性别的健康人,在相同的条件下测其脉搏、呼吸、体温等生理指标均可能存在很大的差异。

四分位数:等于将数据分割为四等分的几个数值,最大的称为上四分位数,最小的称为下四分位数,中间的四分位数即中位数,上四分位数-下四分位数;常用全距量度数据常受异常值困扰,因此常关注位于数据中央的50%,排除异常值,这时用上了四分位数,用到四分位距。

中心极限定理:中心极限定理是概率论中讨论随机变量序列部分和分布渐近于正态分布的一类定理

大数定律:概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。比如一个均匀的骰子,你投掷的次数如果足够多,那么你得到的1-6的频率计算应该大致等于概率,就是每一个数字出现的概率为1/6

方差分析:方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量(分类型)对因变量(数值型)是否有显著影响。可分为单因素方差分析,双因素方差分析

本文编写水平有限,会在不断学习中进行更新和改进~

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值