西瓜书
文章平均质量分 89
mi1kyy
这个作者很懒,什么都没留下…
展开
-
西瓜书笔记--第三章 线性模型
3.1 基本形式线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即:f(x)=w1x1+w2x2+…wdxd+b线性模型的优势:形式简单、易于建模、可解释性好(通过w直观地表达了各属性在预测中的重要性)从线性模型到非线性模型可以通过引入层级结构/高维映射的方式来实现3.2 线性回归给定数据集D={(x1,y1),(x2,y2),…(xm,ym)} 其中xi=(xi1,xi2,…xid) ,yi∈R。线性回归试图学得一个模型准确地预测实值输出标记,即:f(xi)=原创 2021-03-20 21:20:34 · 339 阅读 · 0 评论 -
西瓜书笔记--第二章 模型评估与选择
2.1 经验误差 过拟合 欠拟合首先依旧给出一些定义:1、错误率(error rate):分类错误的样本数占样本总数的比例2、精度(accuracy):1-错误率3、训练误差/经验误差(empirical error):学习器在训练集上的误差4、泛化误差:学习器在新样本上的误差我们希望的是在新样本上表现的很好的学习器,所以目标为使泛化误差尽可能的小,但是我们靠训练集上的数据只能做到减小经验误差,以求能达到学到样本的“普遍规律”,这样在面对新样本时也可以有正确的判别。但是这并不意味着要把训练样本原创 2021-03-12 22:23:03 · 443 阅读 · 0 评论 -
西瓜书笔记--绪论
基本术语1、数据集(data set):一组数据记录的集合(一堆西瓜)2、示例/样本(instance/sample):对于一个事件或对象的描述(西瓜甲),一个示例又被称为一个特征向量。3、属性/特征(attribute/feature):反映事件或对象在某方面的表现或性质(西瓜的色泽)4、属性值:属性的取值(西瓜的色泽为乌黑)5、属性空间/样本空间/输入空间:由属性长成的空间6、数据维数(dimensionality):数据的属性个数7、标记(label):关于示例结果的信息(西瓜是否甜(离原创 2021-03-09 18:23:18 · 175 阅读 · 0 评论