机器学习基础
1.数据的一些概念
萼片长度 | 萼片宽度 | 花瓣长度 | 花瓣宽度 | 种类 |
---|---|---|---|---|
5.1 | 3.5 | 1.4 | 0.2 | 0(se) |
7.0 | 3.2 | 4.7 | 1.4 | 1(ve) |
6.3 | 3.3 | 6 | 2.5 | 2(vi) |
- 数据整体叫数据集
- 每一行数据称为一个样本
- 除最后一列之外的每一列是样本的一个特征
- 最后一列称为标记(label)
2.数据的矩阵表示
除最后一列外的数据,用矩阵X表示, X ( i ) X^{(i)} X(i)表示第i个样本行, X j ( i ) X^{(i)}_j Xj(i)表示第i个样本行第j个特征值
最后一列的数据,用向量y表示, y ( i ) y^{(i)} y(i)表示第i个样本的标记
X ( i ) X^{(i)} X(i)也是一个向量,称为特征向量
3.特征空间
![](https://i-blog.csdnimg.cn/blog_migrate/3ba3c327b65997a0a73283c3132e2696.jpeg)
4.机器学习(监督学习)的基本任务
-
分类
-
二分类:垃圾邮件、肿瘤良性还是恶性……
-
多分类:数字识别、图像识别、信用卡风险评级……
还有很多复杂问题也可以转化为多分类问题,如2048、围棋、无人驾驶等等
-
多标签分类(既可以分类为A,也可以分类为B)
-
-
回归
结果是一个连续数字的值,而非一个类别
如:房屋价格、市场分析、股票……
一些情况下,回归任务可以简化成分类任务
5.机器学习的分类
-
监督学习
训练数据是拥有标记的,任务:分类和回归
-
非监督学习
训练数据没有任何标记
任务:分类(聚类分析),对数据进行降维处理(特征提取、特征压缩),异常检测
-
半监督学习
一部分数据有标记,另一部分没有
-
增强学习
6.批量学习(Batch Learning)和在线学习(Online Learning)
-
批量学习:一次性输入样例
优:简单
缺:如何适应环境变化?定时重新批量学习。——运算量大
-
在线学习:将输出结果和正确结果的差异作为信息,不断训练模型
优:及时反映新的环境变化
缺:异常数据会影响模型,需要加强对数据的监控
7.参数学习和非参数学习
-
参数学习:一旦学到了参数,就不再需要原有的数据集
-
非参数学习:不对模型进行过多假设
非参数不等于没参数!只是不把学习过程当做是学参数