【机器学习（一）】统计学习及监督学习概论

最新推荐文章于 2024-08-03 21:32:38 发布

第五清风

最新推荐文章于 2024-08-03 21:32:38 发布

阅读量261

点赞数 1

分类专栏： Machine Learning 文章标签：算法 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_36312878/article/details/106630403

版权

3 篇文章 0 订阅

订阅专栏

本篇是关于机器学习的开篇之作，这一系列的文章主要是参考李航老师的《统计学习方法》一书，以及兼考虑周志华老师的《机器学习》一书。

本篇博客是该系列的第一篇，主要是关于统计学习一些基本概念中的重难点。

一般分为监督学习、无监督学习、强化学习
- 监督学习：从标注数据中学习预测模型的机器学习问题
  - 输入空间、特征空间、输出空间
- 无监督学习：从无标注数据中学习预测模型的机器学习问题
- 强化学习：指智能系统在与环境的连续互动中学习最有效行为策略的机器学习问题
  - 每一步，根据当前环境的状态以及奖励决定动作，并由此产生下一步的状态和奖励
按模型分类
- 概率模型与非概率模型
- 线性模型与非线性模型
- 参数化模型与非参数化模型（区别在于参数的维度是否固定）
按算法分类
- 分为在线学习与批量学习
- 在线学习：每次接受一个样本，进行预测，之后学习模型，不断重复以上操作（如随机梯度下降的感知机学习算法）
- 批量学习：一次接受所有数据，学习模型，之后进行预测
按技巧分类
- 贝叶斯学习与核方法

正则化：在经验风险上加上一个正则化项（regularization）或罚项（penalty term），即模型复杂度的单调递增函数
- 正则项常用：参数向量的L2范数或L1范数
交叉验证
- 简单交叉验证：选择测试误差最小的模型
- S折交叉验证：选择平均测试误差最小的模型

主要分为三个方面：分类问题、标注问题、回归问题
分类问题：输出变量取有限个离散值
- 精确率（precision）、召回率（recall）、F1值（精确率与召回率的调和平均）
- 算术平均、几何平均、调和平均
标注问题：输入一个观测序列，输出一个标记序列
回归问题：预测输入变量和输出变量之间的关系
- 最小二乘法

关注

专栏目录