统计学习
LC900730
这个作者很懒,什么都没留下…
展开
-
统计学习
基本概念输入空间与输出空间:在监督学习中,将输入输出所有可能取值的集合分表称为输入空间与输出空间;每一个具体的输入是一个实例,通常有特征向量来表示。这时候所有特征向量存在的空间称为特征空间。特征空间的每一维对应于一个特征。监督学习从训练数据(training data)集合中学习模型,对测试数据(test data)进行预测。训练数据由输入和输出组成。模型属于由输入空间到输出空间的映射集合,这个集合原创 2017-10-21 15:49:41 · 339 阅读 · 0 评论 -
(二)模型评估与选择
错误率:m个样本中有a个分类错误,则错误率E=a/m;精度1-a/m;误差实际预测输出与样本真实输出之间的差异称为误差,学习器在训练集上的误差称为‘训练误差’或者‘经验误差’,在新样本上的误差称为‘泛化误差’(generalization error)。显然我们希望得到泛化误差小的机器。过拟合与欠拟合过拟合:学习器把训练样本学的太好,很可能把训练样本本身的特点当做了所有潜在样本都具有的一般性原创 2017-12-12 21:24:39 · 513 阅读 · 0 评论 -
统计学习方法(-)
结构风险(Structural risk minimization,SRM)是为了防止过拟合而提出来的策略,结构风险最小化等价于正则化(regularization)。在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间、损失函数以及训练集确定的情况下,结构风险的定义是 Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(原创 2017-12-16 23:50:46 · 399 阅读 · 0 评论 -
统计学习方法(二)
感知机 感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机预测是用学习得到的感知机模型对新的输入实例进行分类,是神经网络与支持向量机的基础。感知机模型假设输入空间(特征空间)是 X⊆Rn\boldsymbol X \subseteq R^n,输出空间是Y={+1,−1}\boldsymbol Y =\{+1,-1\},输入 x∈X表示实原创 2017-12-17 12:22:19 · 300 阅读 · 0 评论