![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
读书笔记之《机器学习》
Lazyinit
这个作者很懒,什么都没留下…
展开
-
《机器学习》第一章——诸论
1.基本术语数据集:记录的集合;实例(instance):关于一个对象或事件的描述;训练:从数据中学得模型的过程,可通过执行某个算法来完成; 训练数据 训练样本学习任务 分类:预测的是离散值,比如 “好”、“坏”; 回归:预测的是连续值,比如 成熟度;2.假设空间归纳偏好:算法在机器学习过程中对某种假设的偏好;归纳演绎3....原创 2019-04-29 10:40:17 · 192 阅读 · 0 评论 -
《机器学习》第二章——模型评估与选择
1.经验误差与过拟合错误率分类错误的样本占样本总数的比例;如:m个样本中有a个样本分类错误则,错误率 E=a/m ;精度精度=1-错误率;误差学习器的实际预测输出与样本的真实输出之间的差异 ;训练误差学习器在训练集上的误差;泛化误差在新样本上的误差;过拟合把训练样本自身的一些特点当做所有潜在样本都会具有的一般性质,导致泛化性下降;欠拟合对...原创 2019-05-06 18:09:54 · 394 阅读 · 0 评论 -
《机器学习》第三章——线性模型(线性回归)
1.基本形式线性模型形式简单、易于建模,蕴含机器学习中的一些基本思想;许多功能强大的非线性模型可在线性模型的基础上通过引入层级机构或高维映射而得;例如b 可认为是固有的属性。2.线性回归简单线性回归 视图学得一个线性模型以尽可能准确地预测实值输出标记;关键在于 f(x)与y 之间的差别,均方误差是回归任务中最常用的性能度量,因此可试图让均方误差最小化,即...原创 2019-05-21 17:27:34 · 442 阅读 · 0 评论 -
《机器学习》第四章——决策树
1.基本流程2.划分选择信息熵 是度量样本集合纯度最常用的一种指标;表示随机变量的不确定度的度量。熵越大,数据的不确定性越高熵越小,数据的不确定性越低确定性,是指数的随机性,熵越小越纯例如:2.1信息增益例如:信息增益信息增益越大越好,越大则意味着使用属性 a 来进行划分所获得的 “纯度提升” 越大。谁当根节点? 谁的...原创 2019-05-22 15:55:20 · 2918 阅读 · 0 评论 -
《机器学习》第七章——贝叶斯分类
1.贝叶斯决策论贝叶斯决策论 是概率框架下实施的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论 考虑如何基于这些概率和误判损失来选择最优的类别标记。P(A | B)表示在 B 已经发生的情况下 A 发生的概率有多高;P( B | A )与P( A | B ) 有什么关系呢又 P( A ^ B) = P( B ^A )则so 贝叶斯公式...原创 2019-05-27 17:05:21 · 470 阅读 · 0 评论 -
《机器学习》第六章——支持向量机
1.间隔与支持向量分类学习最基本的想法就是基于训练集在样本空间中找到一个划分超平面,将不同类别的样本分开。在样本空间中,划分超平面可通过如下线性方程来描述: 其中为法向量,决定了超平面的方向;b为位移项,决定了超平面与原点之间的距离。显然,划分超平面可被法向量 w ...原创 2019-05-23 18:09:46 · 770 阅读 · 0 评论 -
《机器学习》第八章——集成学习
1.个体与集成生活中的 集成学习 综合多方意见,得出结论面对同样的问题,根据不同的算法针对同一个数据运行,得出的结果以投票的方式,少数服从多数2.Boosting集成多个模型每个模型都在尝试增强(Boosting)整体的效果每一次生成的子模型都是在弥补上一次生成模型 没有成功预测的样本点。点和点之间的权重不一样3.Bagging问题:虽然有很多机器学习方法,...原创 2019-05-29 18:44:51 · 517 阅读 · 0 评论