Rookie_Codeman-CSDN博客

原创 [学渣啃西瓜书]第二章：模型评估与选择-模型评估ROC和AUC

用性能度量（performance measure）来评估学习器（模型）的泛化能力。但是不同的性能度量会对不同的模型有不一样的评判结果。好坏取决于任务需求。给定样本集 D = {(x1,y1),(x2,y2)...,(xm,ym)}, yi是xi的真实标记. f的性能是把f(x)和y进行比较。回归任务的性能度量是均方误差 E(f; D)概率密度均方误差 E（f;D）...

2021-10-20 16:23:05 445

原创 [学渣啃西瓜书]第二章：模型评估与选择-基本概念辨析1

重温一下数据集的概念错误率：样本空间内, 有m个样本，假设其中a个样本分类错误，错误率E = a/m精度： 1 - a/m误差(error): 预测输出和真实结果之间的差异。根据预测的输入空间来源分为以下两种训练误差或经验误差：训练集上的输出和真实结果的差异。泛化误差：新样本（预测集）的输出和真实结果的差异。目标：泛化误差最小。毕竟我们是为了预测。实践中的悖论：经验误差小，往往泛化能力差。主要是因为训练集上的数据特征当做了所有潜在样本具有的一般特性，即“特例归纳为一般性规律.

2021-10-19 14:11:56 128

原创 [学渣啃西瓜书]绪论-作业1.2

先读题：和取式：合取式_百度百科析合范式：析取范式_百度百科和取式数量：考虑*不考虑空集的情况下有（2+1）*（3+1）*（3+1）= 48个假设（和取式）K是什么？是和取式的个数。如 1 V 2 V 3 V 4就是其中一种析合范式，此时k=4，即四个和取式用析合范式表达。重复情况，如（色泽：青绿）包含于（色泽：*）。正例：（色泽 = 青绿 V 乌黑 V *）^ (根蒂 = 卷缩）^ （敲声 = 浊响）<-> 好瓜反例：（色泽 = 青绿 V 乌黑 V *...

2021-10-18 15:10:13 174

原创 [学渣啃西瓜书]绪论-作业1.1

1.1 表1. 中若只包含编号为1，4的两个样例?试给出相应的版本空间.先确认版本空间内假设的个数。X =（色泽A：“青绿”a1，“乌黑”a2，*），根蒂B（“蜷缩”b1，“稍卷”b2，*），敲声C（“浊响”c1，“沉闷”c2，*）；空集（Fai）；Y = （“好瓜”，“坏瓜”）所以假设个数： 3*3*3+1 = 28假设均为：(色泽=；根蒂=；敲声=）是好瓜正例：(a1,b1,c1) <-> 好瓜; 反例：(a2,b2,c2) <-> 坏瓜思路：...

2021-10-16 14:51:55 130

原创 [学渣啃西瓜书]绪论-基本概念辨析(4)-归纳偏好

上训练集训练后的假设上面是训练集学习后的假设空间中的三个假设（Y=（好瓜) )。去水果摊看到一个新瓜（色泽=青绿; 根蒂=蜷缩;敲声=沉闷)用左上假设判断是好瓜，用右上假设判断是坏瓜，用中下假设判断是坏瓜。哪个判断更好？归纳偏好：1- 尽可能特殊（属性值更具体）就用右上，中下的假设。2- 尽可能一般（属性值更包容）就用左上。这个代表我们认为属性“根蒂”作为判断维度更有把握。选取个假设更适合解决我们的问题呢？书中给出上图，A和B是训练集训练后的版本空间中不.

2021-10-15 15:43:21 155

原创 [学渣啃西瓜书]绪论-基本概念辨析(3)-假设空间

假设空间前面说了模型即假设，假设空间即模型空间，样本通过算法产生了各种模型，各种假设（模型）的集合就是假设空间。首先假设了Y=（“好瓜”），然后假设了“色泽：3种属性值”；“根蒂：2种属性值“，”敲声：2种属性值“。所以是3，3，2，每个属性值还可以取通配符，所以是4X3X3种，加上没有好瓜的情况1种，就是37种。看到这个时候有点懵逼，懵逼点在于属性值的取值，是一个属性可以一次取一个还是取两个还是都取？我理解只能取一个，所以就色泽来说，可以取（青绿，乌黑，泛白，any）any用通配符*表示。

2021-10-15 14:30:06 333

原创 [学渣啃西瓜书]绪论-基本概念辨析(2)

为什么要学习机器学习？或者这个问题应该是我们想要通过机器学习达成什么目标？我觉得是找到数据的内在规律，这个规律可以帮助分析现有的问题或者预测未来，然后帮我们做决策。数据是现象，现象是本质的体现。但是我们没法经历所有的现象，那么能否找到本质呢？从现象到本质的两个基本手段是归纳和演绎。归纳需要用有限的样本找到内在的规律，这个规律会通过算法无限接近于真相。如果事件本身存在某种规律，那么事件中的有限样本就可以建立模型找到某种规律，我们希望这个规律无限接近于事件本身的规律。通过模型找到的规律叫做“假设”，事件

2021-10-14 20:42:46 72

原创 [学渣啃西瓜书]绪论-基本概念辨析(1)

纯啃西瓜书对我来有些艰难，一是如何将现实问题在数学抽象化过程中建立联系，二是我的数学基础很差，要一边学一边把大学的东西捡起来。但作为生产工具，研究机器学习最终是为解决问题现实问题服务的。所以我采用了边啃书边联系工作经验的方式理解机器学习的使用。可能我的解释不是最严谨的，甚至是错误的，希望各位大咖和老师们指正。对于绪论这章，我通过提出了一个问题来学习：什么样的西瓜是好瓜。所以首先“西瓜”是什么？西瓜是一个事件也叫对象，是一类物质的统称。无论大的小的、蔫的饱满的、青的白的、娄的生的，都叫西瓜。如果我们去

2021-10-14 15:37:06 84

原创 Python数据分析与挖掘实战-Chapter6-lagrange插值

<a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/88x31.png" /></a><br />This work is licensed under a <a r.

2021-10-10 12:48:46 567

sinat_41939407的博客