统计学习之路|(一)统计学习理论与方法概述

本文是统计学习之路的第一篇,介绍统计学习的基本概念、效果评价与选择,以及主要分类。统计学习是基于数据构建概率模型,用于预测和分析。文章讨论了监督学习、无监督学习和半监督学习的区别,并强调了模型的可解释性和交叉验证在评价中的作用。
摘要由CSDN通过智能技术生成

统计学习之路|(一)统计学习理论与方法概述

  各位小伙伴们大家好!经过一段时间的思考,我决定将开更一个“天坑系列”:统计学习之路。希望自己能够坚持更下去。
  之所以称之为“天坑系列”,是因为要完成这个系列难度略大:一是因为现在这方面的教材多由学科大牛所写,理论难度较高;二是统计学习算法对数学基础(特别是矩阵代数、最优化理论与方法)要求较高,自己也是在摸索中前行。不过有挑战才有收获,在该系列的文章中,我将和大家共同学习各种统计学习算法的理论与思想。我希望用最简单易懂的语言,让各种学科背景的小伙伴们都能理解并有所收获。
  题外话:本系列内容是我之前的学习记录,参考了很多经典教材与博客文章,并结合一些个人心得与理解,若有错误与不恰当之处,还请大家私信指出。 作为本系列的第一期,我将同大家了解统计学习的基础内容:统计学习算法的理念与分类

一、什么是统计学习(Statistical Learning)

  现如今,数据的产生更迅速、数据的搜集方式更多样、数据的分析方法也更丰富。身处大数据时代的我们,也都对“统计学”、“统计学习”、“数据挖掘”、“机器学习"等概念有所耳闻。对于这些概念的详细含义,我并不打算去加以界定,作为一名统计学背景并打算长期“入坑统计”的小同志,我在学习的过程中始终是对模型算法从数据处理的思想方法这一角度上进行理解,因此相比于“机器学习”,我更愿称之为“统计学习”。
  要注意的是,“统计学习”并与传统的统计学存在一定的区别。个人拙见:统计学是一门从有关数据的搜集、整理、分析、决策的方法论科学,涵盖很多研究领域,其下有很多的学科分支;而统计学习是有关基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。也就是说,统计学习往往建立在已有数据的基础上,根据数据格式与分析目的,再去选择适合数据的模型与算法并对模型和算法加以改进与优化。
  用数学语言来讲,我们对数据进行建模时,通常采用如下范式:
Y = f ( X ) + ϵ Y= f(X)+\epsilon Y=f(X)+ϵ  其中, X X X称为输入变量、预测变量、自变量、属性(特征),常用下标区分不同的变量,如 X 1 , X 2 , . . . X p X_1,X_2,...X_p X1,X2,...Xp; Y Y Y称为输出变量、相应变量、因变量, ϵ \epsilon ϵ是随机误差项。
  这里的 f f f并不一定是显式函数,可以是映射、规则等将 X X X Y Y Y彼此连接的一种关系,而统计学习算法则是研究如何有效准确挖掘这种关系的方法集合。比如非常经典的身高问题,就是用一些统计算法分析儿童身高 Y Y Y和多种影响因素 X X X(比如父母身高、营养水平、运动量)之间的关系,可供使用的算法比如线性回归、神经网络、决策树等。这些算法各有优势,在以后的文章中会和大家共同学习。
  根据统计学习导论(An Introduction to Statistical Learning,ISLR)书中的定义,统计学习是关于估计 f f f的一系列方法,但在估计并建模的过程中会涉及到很多细节内容,比如数据的清洗、数据格式的整理转换、算法子类的具体选择、参数的选择与优化等等。
在这里插入图片描述

二、统计学习方法效果评价与选择

  正如 Y = f ( X ) + ϵ Y= f(X)+\epsilon Y=f(X)+ϵ ,我们对数据构造的模型算法往往不能捕捉到数据 Y Y Y X X X间的全部关系,会存在一些偏差与方差。此外,我们建模的目的并非局限于捕捉现有的数据间的关系,更希望对未观测数据进行预测。
  从微观角度讲,在统计学习算法中,我们往往通过交叉验证(Cross Validation,简称CV)对算法的具体效果进行评价。
  尽管交叉验证也可细分,但其思想就是将现有的观测数据根据一定比例拆分成子集,将大部分数据用于训练模型,剩余数据用于测试模型的效果,有时会再拆分出一部分子集用于确定超参数;用于训练模型的数据集通常称为训练集,用于测试效果的数据集通常称为测试集。根据分配比例的不同,交叉验证方法有k折交叉验证、留一交叉验证等等。交叉验证有时也用于模型选择。

在这里插入图片描述

  上图为留一交叉验证方法,在每个训练集上将一数据点视为测试集,其余数据视为训练集,对训练集构造模型并在测试集上对算法进行效果评价,最终将每次算法的评价效果进行平均以代表总体的模型性能。
  具体到评价指标的选择,不同的学习任务下对应的评价指标各异。如回归问题常常采用 M S E , R 2 MSE,R^2 MSE,R2等,具体的指标会在之后的学习笔记中出现。
  从宏观角度讲,模型效果评价与模型选择息息相关。对同一问题Q,为何选择算法A而非算法B,需要从多种角度出发考虑,比如计算成本、内存要求等,这其中有一个重要因素便是模型的可解释性。
在这里插入图片描述
  此外,在现实生活中我们要研究事物间的关系,比如居民收入与支出、学习时间与考试成绩、空气质量与气象因素等等,此时模型可解释性的重要性则更为凸显。
  “奥卡姆剃刀”(Occam’s razor)定理在统计学习算法中非常著名,其核心思想为“若非必要,勿增实体”。有些热门算法经常会被提及,有些看似简单的方法会受到冷落,但奥卡姆剃刀定理告诉我们的道理是:如果两个模型A和B对数据的解释能力完全相同,那么选择较为简单的那个模型。数据分析的关键点在于根据所要达到的目的选择相应的算法,就好比削苹果用倚天剑和屠龙刀哪个更好?答案是都不用,用小苹果刀就可以解决这种问题。个人认为这里的核心问题还是在于待研究问题的分类。

在这里插入图片描述

三、统计学习方法的分类

  统计学习的算法研究一直是热门领域,虽然具体算法推陈出新,但大体上可分为三类:监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)、半监督学习(Semi-Supervised Learning)。
   我们仍以 X X X Y Y Y的关系来举例。在监督学习中, Y Y Y是必然存在的(通常将 称为标签),我们研究的目的是挖掘 X X X Y Y Y之间的关系,从而可以根据 去推断或预测 。根据 取值属性的不同,监督学习可再分为分类(classification)与回归(regression)问题。当 Y Y Y取值离散时,称为分类问题,比如医学中根据化验指标判断某人是否患病、根据消费习惯判断某人是否为潜在客户。当 Y Y Y取值连续时,称为回归问题,比如根据父母身高预测儿童身高、比如根据以往考试分数预测下次分数。
  与监督学习相对的是无监督学习,无监督学习的情形下不存在标签 Y Y Y,也就是说我们没有任何先验信息对数据加以分类,我们要探索的是大量数据 X X X内在的潜在关系。无监督学习可分为降维(dimensionality reduction)与聚类(clustering)。


  个人认为无监督学习方法是更为高级的一种学习方法,因为待研究问题都是从数据出发从而挖掘数据间的潜在联系。以人的性别分类来举例,我们从出生就知道自然人可分为男人和女人,那么我们又是根据什么准则来对人的性别进行划分是人体器官?思考方式?又或是情感脆弱程度?也就是说,我们现在掌握的很多标签信息都是在既往认识的基础上所得到的,而无监督学习算法若能从数据角度出发,合理有效地挖掘出模式与分类,某种程度上可能会挖掘超出人类认知水平的结论。
  作为监督学习与无监督学习的折中,半监督学习逐渐成为近些年研究的热点话题。因为实际生活中得到数据标签是需要较大的人力财力与时间成本。比如某些罕见与疑难病例,可供我们研究的病人数量较少;又比如生物试验得到某试验结果需要较长的周期,我们需要根据以往信息来辅助数据分析任务。此时,半监督学习的优势则发挥出来,并存在相关研究表明:在无监督问题中,适当有标签的信息可以提高学习准确度。

写在最后

  本期要分享给大家的内容就是这些,本期主要内容有:
  ①什么是统计学习方法?②统计学习模型的评价方法;③统计学习问题的分类。
  如果各位小伙伴觉得本篇文章对你有所收获,希望大家多多转载分享,有对某具体算法感兴趣的小伙伴,可以私信我交流,可能下期更新内容的灵感就来自于你!
  本文内容均为个人学习心得,码字不易,转载请注明出处:长颈鹿数据堂。本文如有侵权必删。
  最后,欢迎大家关注微信公众号"长颈鹿数据堂",从统计学到数据科学,长颈鹿与你共同成长!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值