机器学习之(八)统计学基本知识

      本文主要介绍:统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析,其中回归和分类、多元分析是学习重点。统计学中的其它概念如:概率及分布、参数估计、假设检验属于经典统计的内容,在此文略去,时间序列分析及指数是金融方面的应用,也一并略去,如有需要请查阅相关书籍。

参考书籍:

      贾俊平.《统计学》.第六版

      王喜之.《统计学:从数据到结论》.第四版


 1.统计学基本概念

      统计学:收集、处理、分析、解释数据并从中得出结论的科学。

      数据分析的方法可分为描述统计和推断统计。

                                                        

      注意:分类变量如“行业”,其变量值可以为“零售业”、“旅游业”、“汽车制造业”;顺序变量如“产品等级”,其变量值可以位“一等品”、“二等品”、“次品”。分类变量与顺序变量均可称为定性变量、属性变量。

 2.数据的收集

      注意:    在抽查中可根据具体项目采取概率抽样和非概率抽样相结合的方式,收集数据也可以采用自填、电访、面访相结合的方式以节省成本。    在间接来源中,注意对二手数据评估,可以考虑:数据是谁收集的?为什么目的收集的?数据怎么收集的?什么时候收集的?避免对二手数据的错用、误用、滥用。

 3.数据的描述

3.1数据的概括性度量

 

      注意:在excel 数据---“数据分析---描述统计 中能得到所有指标值。

3.2数据的图表展示

      说明:不同的箱线图对应的分布如下

      注意事项:图表应简洁、合理的表达统计目的,不应在图形的修饰上花费太多时间。在绘制图形时,应避免一切不必要的装饰,注重图形所要表达的信息,图形产生的视觉效果应与数据所体现的事物特征一致,不得歪曲数据。

      统计表是用于展示数据的另一个基本工具,一般由表头、行标题、列标题和数字资料组成,必要时在统计表的下方添加数据来源、变量注释和说明等。统计表的横竖比例要适当,避免出现过高或过宽的情况;表头标题应满足3W原则(when、where、what),统计表中应注明单位,表的上下两条线一般用粗线,中间的其它线用细线;通常情况下,统计表左右两边不封口,列标题之间在必要时可用竖线分开,而行标题通常不必用横线分开;表中数据一般是右对齐,有小数点时小数点对齐,小数点位数统一,对于没有数字的单元,一般用“—”表示,表中不应出现空白单元格。

 4.回归与分类

4.1回归:数值型变量(因)——数值型变量(自)
  拟合优度指标 检验方法 是否需要假设分布背景 准确度排名
线性回归 判定系数 R2 F统计量、t统计量 4
决策树 判定系数 R2 交叉验证 5
boosting 判定系数 R2 交叉验证 2
随机森林 判定系数 R2 交叉验证
支持向量机 判定系数 R2 交叉验证

      线性回归属于经典统计学,模型能够写成公式,而其它几种方式属于现代方法,模型体现在算法之中,这些方法广泛应用于机器学习或数据挖掘之中。算法模型适用范围比经典的统计模型根据广泛。在处理巨大的数据集上,在无法假定任何分布背景的情况下,在面对众多竞争模型,算法模型较经典模型有着不可比拟的优越性。  

4.2分类:分类变量(因)——数值型变量(自)
   拟合优度指标  检验方法 是否需要假设分布背景  准确度排名
Logistic回归       是 因变量只能为2个变量
 线性判别分析(Fisher判别法)  错分比例  交叉验证  否  4
 决策树  错分比例  交叉验证  否  5
 boosting  错分比例  交叉验证  3
 随机森林  错分比例  交叉验证  否  1
 支持向量机  错分比例  交叉验证  否  2

      说明:Logistic回归、线性判别分析(Fisher判别法)均属于经典统计的内容。支持向量机是基于数学模型但充分结合了计算机的算法。

4.3分类:分类变量(因)——分类变量(自)
   拟合优度指标 检验方法 是否需要假设分布背景 准确度排名
 决策树  错分比例 交叉验证  否 2
boosting  错分比例 交叉验证  否 1
随机森林  错分比例 交叉验证  否 1
附:
列联分析:分类变量是否相关

      列联表是若干分类变量的各种可能取值组合的出现频数分布表,主要目的是看这些变量是否想关。如:

方差分析:分类变量对数值型变量是否有显著影响

      方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量(分类型)对因变量(数值型)是否有显著影响。可分为单因素方差分析,双因素方差分析。如:

    

 5.多元分析

5.1寻找多个变量的代表:主成分分析和因子分析

5.2把对象分类:聚类分析

      详见《多元统计分析》、《实用多元统计分析》

 

  • 4
    点赞
  • 45
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
机器学习是一种人工智能技术,它通过利用统计学和计算机科学的方法,让计算机能够从数据中学习和提取模式,以便能够自动进行决策和预测。机器学习算法是机器学习的核心工具,下面是一些机器学习算法的知识点。 1. 监督学习算法:监督学习是机器学习中最常见的算法类型,其中训练数据包括输入特征和相应的输出标签。一些监督学习算法包括决策树、支持向量机、朴素贝叶斯和神经网络等。 2. 无监督学习算法:与监督学习不同,无监督学习算法不需要标签,它主要用于数据聚类、降维和异常检测等任务。一些无监督学习算法包括K均值聚类、主成分分析和高斯混合模型等。 3. 强化学习算法:强化学习算法是一种通过与环境交互来学习如何选择动作以使累计奖励最大化的算法。它包括Q学习和深度强化学习等。 4. 集成学习算法:集成学习通过将多个基本学习器的结果进行整合,以获得更好的预测性能。常见的集成学习算法有随机森林和梯度提升决策树等。 5. 深度学习算法:深度学习是一种基于神经网络的机器学习算法,具有多层的隐藏神经元。它在图片和语音识别、自然语言处理等领域取得了很大的成功,如卷积神经网络和循环神经网络。 6. 过拟合和欠拟合:过拟合和欠拟合是机器学习中常见的问题。过拟合指模型过度学习训练数据,并无法很好地泛化到新数据,而欠拟合则指模型不能够准确地拟合训练数据。解决这些问题的方法包括交叉验证、正则化和增加训练数据等。 这些是机器学习算法的一些基本知识点,通过深入学习和实践,我们能够更好地理解和应用机器学习算法。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值