- 博客(3)
- 资源 (12)
- 收藏
- 关注
原创 斯坦福大学机器学习——特征选择(Feature selection)
特征选择是一种及其重要的数据预处理方法。假设你需要处理一个监督学习问题,样本的特征数非常大,但是可能仅仅有少部分特征会和对结果产生影响。甚至是简单的线性分类,如果样本特征数超过了n,但假设函数的VC维确仍然是O(n),那么,除非大大扩展训练集的数量,否则即会带来过拟合的问题。在这样的情况下,可以使用特征选择算法降低特征的数量。
2015-01-22 14:06:02 22904
原创 斯坦福大学机器学习——交叉验证(Cross Validation)
交叉验证是一种模型选择方法,其将样本的一部分用于训练,另一部分用于验证。因此不仅考虑了训练误差,同时也考虑了泛化误差。从这里可以看出机器学习、数据挖掘与传统统计学的一个重要差别:传统统计学更注重理论,追求理论的完整性和模型的精确性,在对样本建立某个特定模型后,用理论去对模型进行各种验证;而机器学习/数据挖掘则注重经验,如交叉验证,就是通过不同模型在同一样本上的误差表现好坏,来选择适合这一样本的模型,而不去纠结理论上是否严谨。
2015-01-19 09:27:07 64681 1
原创 斯坦福大学机器学习——误差理论(Error Theory)
一、偏倚(bias)和方差(variance)在讨论线性回归时,我们用一次线性函数对训练样本进行拟合(如图1所示);然而,我们可以通过二次多项式函数对训练样本进行拟合(如图2所示),函数对样本的拟合程序看上去更“好”;当我们利用五次多项式函数对样本进行拟合(如图3所示),函数通过了所有样本,成为了一次“完美”的拟合。图3建立的模型,在训练集中通过x可以很好的预测y,然而
2015-01-09 22:07:04 33953 5
WINDOWS核心编程(中文版)
2010-02-21
Visual C++ 2008入门经典(英文版)
2010-02-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人