什么是监督学习
利用一组已知类别的样本调整算法的参数,使其达到所要求的性能的过程。也称为监督训练或有教师学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。
特征工程——特征很重要
在机器学习过程中特征比算法还要重要,有句名言说道:输入算法的是垃圾,那么算法输出的也是垃圾。
Ross Girshick《richfeature hierarchies for accurate object detection and semantic segmentation》
一定要注意特征的质量远比数量重要
1)特征过多的缺陷
增加了算法的复杂性和运行时间
简单的模型更具有鲁棒性
有用的维度少的时候可解释性更强
获取特征的两种方法
1)特征选取
从d的特征中选择k个,将其余的(d-k)个舍去
具体算法
①向前选择
初始特征集是一个空集,然后依次往特征集中添加一个特征
②向后选择
初始特征集包含所有的特征,然后从中依次删除一个特征
2)特征提取
将d个特征经过一定的运算之后得到k个特征,比如将两个特征进行相加得到一个新的特征
具体算法
①主成分分析&#