《统计学习方法第二版》学习笔记1——概论

最新推荐文章于 2024-07-26 08:00:00 发布

sd3145265

最新推荐文章于 2024-07-26 08:00:00 发布

阅读量853

点赞数

分类专栏：组队学习统计学习方法文章标签：统计学机器学习

本文链接：https://blog.csdn.net/sd3145265/article/details/108439569

版权

第1章统计学习及监督学习概率论

前言

本文主要参考资料：
- 《统计学习方法》第二版李航
- 《统计学习方法》第二版PPT 袁春

这次学习笔记主要记录《统计学习方法》的一些重要知识点及其拓展、相关代码实现和一些思考，起因是我们可爱美丽的V同学发动的组队学习打卡活动。这次学习的主要目的，主要是要弄清楚知识点的脉络，同时要弄懂知识的具体应用场景。本人并非计算机相关专业，学识尚浅，如有疏忽错误，敬请指正。

1 理论部分

【导读】本章简述了统计学习及监督学习的一些基本概念。1.1 ~ 1.3节是统计学习的相关概念，1.4 ~ 1.8节是监督学习的相关概念。由于内容比较多，我挑了一些认为需要注意的内容，主要是以提问的方式来引起思考发散，大多数内容可以在书中找到答案，其中有些内容并没有固定的答案，需要大家查资料或结合实际思考。本章主要内容我整理成了一份思维导图，下面附上链接。

链接：https://pan.baidu.com/s/1wtdjnMku0G8fKyfUpJZfCQ
提取码：wxed

1.1 统计学习

【思考】统计学习与机器学习的关系
书中统计学习和机器学习有很多的交叉，看起来概念也很相似，也给出了统计学习的概念。那我们来看下机器学习的概念，再分析下它们的区别。
- 维基百科
  机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点，到以“知识”为重点，再到以“学习”为重点的自然、清晰的脉络。显然，机器学习是实现人工智能的一个途径，即以机器学习为手段解决人工智能中的问题。机器学习在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。很多推论问题属于无程序可循难度，所以部分的机器学习研究是开发容易处理的近似算法。
- 统计学习和机器学习的区别：
  - 研究方法差异
    统计学研究形式化和推导
    机器学习更容忍一些新方法
  - 维度差异
    统计学强调低维空间问题的统计推导（confidence intervals, hypothesis tests, optimal estimators）
    机器学习强调高维预测问题
  - 统计学和机器学习各自更关心的领域：
    统计学: survival analysis, spatial analysis, multiple testing, minimax theory, deconvolution, semiparametric inference, bootstrapping, time series.
    机器学习: online learning, semisupervised learning, manifold learning, active learning, boosting.
【思考】统计学习的重要性
统计学习已经成功地应用到了人工智能、模式识别、数据挖掘、自然语言处理、语音处理、计算视觉、信息检索、生物信息等许多计算机应用领域中，并且成为这些领域的核心技术。随着人们对数据的重视、计算机算力的提升以及未来更高级的人工智能的发展趋势，我们可以预测，统计学习以后能渗透进更多的行业。关键我们要掌握统计学习的处理思想，能够把自己面对的问题转化成数学描述，用统计学习的相关方法去解决它们。

1.2 统计学习的分类

【思考】统计学习的基本分类有几种？每种分类有什么特点？你能举出每种分类的一些经典应用吗？
基本分类可分为监督学习、无监督学习、强化学习，还可以包括半监督学习和主动学习。
- 监督学习：
  监督学习是从给定的训练数据集中“学习”出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出，即特征和目标。训练集中的目标是由人类事先进行标注的。
  主要用途：分类、回归和标注
  常见算法：k-近邻算法、决策树与随机森林、逻辑回归、神经网络、朴素贝叶斯、Logistic回归、支持向量机、AdaBoost算法、线性回归、局部加权线性回归、收缩和树回归等
  经典应用：后面结合具体算法举例说明。
1. 非监督学习：
  在学习的过程中，只提供事物的具体特征(特征值)，但不提供事物的名称(目标值)，让学习者自己总结归纳。所以非监督学习又称为归纳性学习（Clustering），是指将数据集合分成由类似的对象组成的多个簇（或组）的过程。
  主要用途：聚类、降维、概率估计等
  常见算法：k-means、Apriori、FP-Growth、主成分分析（PCA）、潜在语义分析（LSA）、概率潜在语义分析（PLSA）、潜在狄利克雷分配（LDA）、PageRank等
  经典应用：后面结合具体算法举例说明。
2. 强化学习：
  强化学习是指智能体在与环境的连续互动中学习最优行为策略的机器学习问题。
  主要特点：
  无监督,仅有奖励信号；
  反馈有延迟,不是瞬时的;
  时间是重要的(由于是时序数据,不是独立同分布的);
  智能体的动作会影响后续得到的数据;
  常见算法：Q-learning、Sarsa、DQN（Deep Q Network）、Policy Gradients、Actor-critic等
  经典应用：自动驾驶、机器人、推荐系统、Alpha Go
3. 半监督学习与主动学习
  半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。旨在利用未标注数据中的信息，辅助标注数据，进行监督学习，以较低的成本达到较好的学习效果。
  主动学习是指机器不断主动给出实例让教师进行标注，然后利用标注数据学习预测模型的机器学习问题。旨在找出对学习最优帮助的实例让教师标注，以较小的标注代价，达到较好的学习效果。
  半监督学习和主动学习更接近监督学习。
【参考】强化学习入门总结
【思考】除了基本分类，统计学习还能怎样分类？分类的依据是什么？
- 按模型分类：
  概率模型和非概率模型（确定性模型）
  线性模型和非线性模型
  参数化模型和非参数化模型
- 按算法分类：
  在线学习和批量学习
- 按技巧分类：
  贝叶斯学习和核方法

1.3 统计学习方法三要素

【思考】统计学习方法三要素是什么？它们有什么关系吗？
【思考】什么是模型？
【思考】什么是策略？怎么选择最优的策略？有没有什么量化指标？
【思考】什么是损失函数和风险函数？它们之间有什么关系？常用的损失函数有哪几种？每种损失函数适合处理什么问题？
【思考】什么是经验风险？经验风险和期望风险（风险函数）的区别？现实中怎么利用经验风险来使得期望风险最小化？
【思考】什么是经验风险最小化和结构风险最小化？这两个策略分别适合怎样的场景？
【思考】什么是算法？

1.4 模型评估与模型选择

【思考】怎么进行模型评估？有没有什么量化指标？
【思考】什么是训练误差与测试误差？在模型评估中，哪个指标更重要？为什么？
【思考】什么是过拟合？什么情况容易出现过拟合？什么是模型选择？如何进行模型选择？常用的模型选择方法有哪些？

1.5 正则化与交叉验证

【思考】什么是正则化？它和结构风险最小化有什么关系吗？常见的正则化项（罚项）有哪些？它们适合哪些场景？
【思考】什么是交叉验证？交叉验证适合什么场景？交叉验证的分类？

1.6 泛化能力

【思考】什么是泛化能力？怎么评价泛化能力？
【思考】什么是泛化误差？有什么意义？和期望风险有什么关系吗？
【思考】什么是泛化误差上界？有什么意义？有什么性质？

1.7 生成模型与判别模型

【思考】什么是生成方法和生成模型？有什么特点？常见的生成模型有哪些？
【思考】什么是判别方法和判别模型？有什么特点？常见的生成模型有哪些？

1.8 监督学习应用

【思考】监督学习主要应用在哪些方面？
【思考】什么是分类问题？分类问题的过程？评价分类模型的指标？常用的统计学习方法？常见应用场景？

【思考】什么是标注问题？标注问题的过程？评价标注模型的指标？常用的统计学习方法？常见应用场景？

【思考】什么是回归问题？回归问题的过程？回归问题的分类？评价回归学习的指标？常用的统计学习方法？常见应用场景？

2 代码部分

2.1 最小二乘法拟合曲线

书本例1.1

import numpy as np

最低0.47元/天解锁文章

sd3145265

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法第二版》学习笔记1——概论

第1章统计学习及监督学习概率论目录第1章统计学习及监督学习概率论前言1 理论部分1.1 统计学习1.2 统计学习的分类1.3 统计学习方法三要素1.4 模型评估与模型选择1.5 正则化与交叉验证1.6 泛化能力1.7 生成模型与判别模型1.8 监督学习应用前言本文主要参考资料：《统计学习方法》第二版李航《统计学习方法》第二版PPT 袁春这次学习笔记主要记录《统计学习方法》的一些重要知识点及其拓展、相关代码实现和一些思考，起因是我们可爱美丽的V同学发动的组队学习打卡活动。本人并非计
复制链接

扫一扫