上节课接触了VC Dimension,如果hypothesis set的有限,并且有足够多的data,同时演算法能够找到一个好的hypothesis使得,这样可以说机器学习是可行的。那么在数据有noise的情况下是否能够进行机器学习?
Noise and Probablistic target
之前对VC Dimension的推导是在没有noise的情况下,如果数据本身存在noise,怎样放宽VC Bound的假设?
data set一般是存在noise的,其noise一般由三种:
- 人为因素将good分为bad,或者将bad分为good,noise in y;
- 同一特征的数据被分为不同的类别;
- 数据样本不精确;
VC Bound在有noise的情况下能否work?