机器学习复习--第一章简介

最新推荐文章于 2024-10-10 23:18:01 发布

ahaZeng

最新推荐文章于 2024-10-10 23:18:01 发布

阅读量200

点赞数

分类专栏：机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/ahaZeng/article/details/106251331

版权

机器学习课程笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、简介

1.监督学习

（1）回归：Y是连续的，且通过Y可以计算距离
（2）分类：Y之间是无序的，且不能进行大小比较
如：天气预报预测是否下雨：分类问题
　　股票预测交易量：回归问题

2.非监督学习

无标签y,主要应用于降维、数据压缩、正常情况建模、分割、聚类、密度估计等等
如：通过年龄预测孩子身高：监督回归
　　对邮件进行垃圾分类：非监督、聚类
　　通过文章集作者性别判断作者性别：监督分类

二、机器学习基本流程

1.选择一个模型，如 $f (x) = a x + b$
2.选择一个误差函数：如 $loss={1\over n}\sum^n_{i=1}(y_i-f(x_i))^2$
3.优化误差函数从而求得模型参数

流程图：
在这里插入图片描述

1.数据

（1）数据清洗：消除错误和噪声、消除冗余
（2）过程：重命名、缩放（标准化）、离散化、抽象、聚合、新特性

设计环节：

2.特征选择

对每个维度选择特征对分类器效果的影响

3. 模型选择

（1）模型选择可能存在的问题：

1）泛化性不足：需要在全部数据样本求得误差，这个误差叫泛化误差，来衡量泛化性能
2）过拟合：过拟合体现在训练误差小，测试误差大，原因是模型参数过多或者数据样本量小。
避免过拟合的方法：使用大量数据样本、同验证集做模型选择、使用正则化Occam’s Razor
　　（欠拟合体现在训练误差大，测试误差也大）

（2）模型举例：

1）KNN：目的是将一个测试数据进行分为两类，与所有训练样本计算距离，选出与待测样本最近的K个样本，这K个样本标签大多数为什么，就将其赋予待测样本。
2）决策树 DT：深度越深，复杂度越大
3）多项式回归：多项式阶数越大，复杂度越大

（3）模型选择的方法

通过验证集评估模型
1）留出法（hold-out）：将数据集划分为训练集和验证集两个集合，使用训练集数据对模型进行训练，使用验证集选择验证集的误差最小的模型。
缺点：用于训练的样本量减少了，分验证集和训练集时存在随机性
2）交叉验证法（cross validation）k折交叉验证
将训练集分为k份，每次选一份作为验证集，其余作训练集，进行k次训练和测试，最终训练出k个模型。

在这里插入图片描述
3)留一法：K折交叉验证的特例，将数据集一个样本作为一份
正则化项
4）通过正则化方式限制多项式自由度达到减少参数问题：

‘+’左边为正常的目标函数， $\lambda$ 称为规范化参数， ${\lambda \over 2}\|w\|^2$ 称为正则化项