提示:
机器学习个人理解 :首先机器学习要获取一定的数据集,这些数据集要包含描述某一对象的特殊特征,同时带有想要预测的结果,将一部分数据用来给机器学习,再用剩下的数据做测试。通过不断优化学习算法使机器的预测结果越来越符合我们想要的结果。
文章目录
基本术语
数据集(data set) | 其中每条记录是关于一个事件或对象的描述 |
---|---|
属性(attribute)或特征(feature) | 反映事件或对象在某方面的表现或性质的事项,例如人的身高,体重等可以作为此人的属性或特征。 |
属性值(attribute value) | 属性上的取值,如一个人体重为55kg |
属性空间,样本空间,输入空间:
属性张成的空间,例如可以用(码龄,发量,发际线)来描述一个程序员,将这三个属性作为三个坐标轴,那么便形成了一个关于程序员的三维空间,三维空间中每个程序员都可以找到自己的坐标位置,每个坐标位置对应着一个坐标向量,那么这可以作为一个程序员的特征向量。
集合 | |
---|---|
训练集(training set) | 用来训练的数据集合 |
测试集(testing set) | 用来测试的数据集合 |
概念 | |
---|---|
分类(classification) | 预测的值涉及离散,如好瓜,坏瓜。二分类,多分类 |
回归(regression) | 预测的值涉及连续值,例如西瓜甜度,身高 |
聚类(clustering) | 同一类型聚集在一起 |
(无)监督学习((un)supervised learning) :
监督学习-给予已标注图像学习后,机器再标注。
无监督学习-无标注图像
半监督学习-给予部分图像标注学习
图像标注 (给图像注释)
泛化(generalization):小部分训练后大范围试用
归纳偏好( inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
典型的机器学习过程
语言、图像->feature->向量
模型评估与选择
误差类型 | |
---|---|
泛化误差 | 在“未来”样本上的误差 |
经验误差 | 在训练集上的误差,亦称“训练误差” |
泛化误差越小越好;
但是经验误差并不是越小越好,经验误差过小会导致过拟合。
过拟合 | 往往能较好地学习训练集数据的性质,而在测试集上的性能较差,表现为输出结果的高方差 |
欠拟合 | 在训练集和测试集上的性能都较差,主要表现为输出结果的高偏差 |
以下为选择模型三指标 |
评估方法(测试集获取)
测试集与训练集要“互斥”
留出法、交叉验证、自助法
1.留出法
保持数据分布一致性(如分层取样)
多次重复划分(如100次随机划分)
测试集大小适中
2.k-折交叉验证
将数据集等分为k份
分别将每一份作为一个测试集分别测试