机器学习基础

最新推荐文章于 2024-08-02 19:09:44 发布

TangowL

最新推荐文章于 2024-08-02 19:09:44 发布

阅读量875

点赞数 9

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lipengcn/article/details/50698276

版权

机器学习专栏收录该内容

28 篇文章 5 订阅

订阅专栏

1、目前机器学习中的绝大部分方法基于概率统计方法，因此，统计学习=统计机器学习=机器学习

2、统计学习以数据为研究对象，是数据驱动的学科，其关于数据的基本假设是“同类数据具有一定的统计规律性”

3、统计学习的三要素包括模型的假设空间、模型选取的准则以及模型学习的算法，可概括为“模型+策略+算法”

4、基本概念：

4.1 将输入与输出所有可能取值的集合分别称为输入空间和输出空间

4.2 每个具体的输入为一个实例，通常由特征向量（feature vector）表示

4.3 所有特征向量存在的空间成为特征空间

4.4 一般，假设输入空间与特征空间为相同的空间

4.5 输入与输出对称为样本（sample）

4.6 回归问题、分类问题、标注问题（输入变量和输出变量均为变量序列的预测问题）

4.7 监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合，这个集合成为假设空间，假设空间的确定意味着学习范围的确定

4.8 监督学习的模型分为由条件概率表示的概率模型，和由决策函数表示的非概率模型

4.9 损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏

4.10 学习的目标原本应该是选择期望风险最小的模型，但由于训练样本有限，只能选择经验风险最小化策略，但当样本容量很小时，经验风险最小化学习有可能会出现过拟合现象，此时可以追加表示模型复杂度的正则化项或者罚项，构造正则化项，即学习结构风险最小的模型

4.11 注意，统计学习方法中具体采用的损失函数未必是评估时使用的损失函数

4.12 过拟合，是指学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测的很好，但对位置数据预测的很差的现象。学习的目的在于进行最优的模型选择，即选取复杂度适当的模型，以达到测试误差最小的目的

4.13 时刻牢记下图：训练误差和测试误差与模型复杂度的关系

5、现有理论认为，对于分类识别，训练样本的数量不应小于特征空间维数的5-10倍，为了获取较高的分类正确率，则应保持在10倍以上

关注

9
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。