机器学习
文章平均质量分 89
把握不同模型之间的内在关联,形成观察机器学习的宏观视角,找准进一步理解与创新的方向。
_Rye_
左手代码右手诗
一行代码一行诗
展开
-
如何成为机器学习工程师?
说到数据分析师和机器学习工程师这样的新兴职业,你的第一印象是什么呢?数据分析师是不是跟电脑屏幕上汹涌澎湃的曲线大眼瞪小眼?机器学习工程师是不是闭着眼睛对着一堆参数调来调去,抓耳挠腮?其实真相远非如此简单。如果说机器学习的学术研究多多少少还带着点儿玄学色彩的话,它在商业领域中的应用就要踏实得多,因为没有哪个公司的老板会容忍自己的钱扔进水里,连个响儿都听不见的。随着大数据技术与人工智能技术的普及,越来越多的企业开始以它们为驱动力来助推商业表现,像推荐系统和风控系统就是数据分析在商业领域的经典应用。原创 2023-10-29 17:19:58 · 80 阅读 · 0 评论 -
总结 | 贝叶斯学习的模型体系
比如在分析学生的成绩时,物理 / 化学 / 生物这几门课程之间会存在较强的相关性,政治 / 历史 / 地理这几门课程也会存在较强的相关性,物理 / 政治、化学 / 历史之间的相关性就会较弱,这样的相关关系就可以用理科和文科两个互不相关的公因子来刻画。这两本书是贝叶斯概率理论的入门读物,它们不像学院派的教材那样用冗长的公式和复杂的符号让人望而却步,而是通过更加贴近生活的实例来传递贝叶斯理论的核心要义,读起来比较轻松。不难看出,公因子的作用类似高斯混合模型中的隐变量,但它可以起到降维的作用,前面介绍过的。原创 2023-10-29 13:45:12 · 158 阅读 · 0 评论 -
40 | 结构学习:基于约束与基于评分
结构 EM 算法在具有结构和参数两个维度的假设空间内进行搜索,在每一轮次的搜索中,原始的 EM 算法是为固定的模型更新参数,结构 EM 算法则同时更新参数和模型,更新的方式是让模型的评分函数最大化,评分函数的选择是参数关于模型后验概率的信息熵,当然也可以使用贝叶斯信息量准则或者最小描述长度这类指标。评分等价性指的是独立性关系相同的等价网络所获得的分数应该相同,可分解性指的则是评分函数能够被分解为多个子函数的累加,每个子函数对应一个局部结构,一个结构的变化不会影响其他结构部分的分数。原创 2023-10-29 12:16:19 · 442 阅读 · 0 评论 -
39 | 隐变量下的参数学习:EM方法与混合模型
在前面的例子中,由于第一轮投掷硬币 A 的可能性是 0.45,那么硬币 A 对正反面出现次数的贡献就是 45%,在 5 次正面的结果中,来源于硬币 A 的就是 5×0.45=2.25 次,来源于硬币 B 的则是 2.75 次。真正的 EM 算法并不会将后验概率最大的值赋给隐变量,而是考虑其所有可能的取值,在概率分布的框架下进行分析。具体的做法是给两组未知数中的一组选择任意值,使用它们来估计另一组,然后使用这些更新的取值来找到前一组的更好估计,然后在两者之间交互更新,直到得到的值都收敛到固定点。原创 2023-10-29 11:02:08 · 148 阅读 · 0 评论 -
38 | 完备数据下的参数学习:有向图与无向图
可以证明,如果不同参数的先验分布是相互独立的,那么它们的后验分布也会继承这种独立性,所以对最大后验估计的求解也可以遵循从局部到整体的方式,这和最大似然估计是一致的。而在马尔可夫随机场中,归一化操作是通过全局化的划分函数来完成的,参数的全局耦合性使得这个复杂的任务不能被分解成若干简单任务的组合,造成了更大的学习难度。将类似然函数改写成属性似然函数的乘积就是基于朴素贝叶斯图结构的全局分解,在此基础上计算属性的似然概率,就是统计当每个属性取得不同的取值时,归属于某个类别的样本在这个类别所有样本中所占的比例。原创 2023-10-29 10:41:25 · 139 阅读 · 0 评论 -
37 | 随机近似推断:MCMC
可如果导致准概率下降,新样本就存在被丢弃的可能,下降的程度越大,被接受的概率就越低,这将会导致生成的样本更容易抱团在一起。要让接受率满足上面的条件,最简单的方式是设定两者之中较大的一个为 1,再利用等式关系计算出另外一个,这样生成的样本分布 p(z) 就是马尔可夫链的稳态分布。追根溯源,吉布斯采样来源于对吉布斯随机场(Gibbs random field)的研究,它相当于将一个高维的马尔可夫链庖丁解牛,拆解成多个一维的马尔可夫链,高维马尔可夫链整体的状态转移也相应地被拆解成不同一维链轮流的状态转移。原创 2023-10-29 08:19:21 · 205 阅读 · 0 评论 -
36 | 确定近似推断:变分贝叶斯
ADVI 的全称是自动微分变分推断(Automatic Differentiation Variational Inference),是一种基于平均场理论的高效算法,它将变分后验分布初始化为球面高斯分布,不同参数的后验彼此无关,再通过训练数据拟合到真实的后验上。(variational Bayesian inference),它解决的问题是对隐变量 y 关于已知输入 x 的后验概率 p(y∣x) 的近似,近似的方式是利用最优的近似概率分布 q(y) 来逼近 p(y∣x)。原创 2023-10-29 00:08:16 · 755 阅读 · 1 评论 -
35 | 精确推断:变量消除及其拓展
一个因子所包含的所有变量的联合边际分布则正比于因子函数本身和来自这些变量的消息的乘积,和单个结点一样,这个值也需要归一化处理。反过来,从因子 a 到变量 v 的消息就复杂一些,它先要对除来自 v 外,进入 a 的所有变量消息相乘,再对乘积边际化掉所有除 v 之外和 a 邻接的所有变量,这在本质上和变量消除的和积算法是一致的。在选定一个待消除的变量后,首先要找到和这个变量有关的所有因子函数,将它们相乘以得到对变量影响方式的完整描述,再对这个变量在不同取值下的联合概率求和,以计算将它消除之后的边缘概率。原创 2023-10-28 23:42:40 · 270 阅读 · 0 评论 -
34 | 连续序列化模型:线性动态系统
其中 X 是 n 维的隐藏状态变量,O 是 m 维的观测变量,A 是定义了模型的线性转化规则的 n 维方阵,Q 是定义了状态随时间演化过程中的高斯噪声的 n 维方阵,H 是定义了从状态到观测的线性转化规则的 n×m 维矩阵,R 是定义了观测结果中高斯噪声的 m 维方阵。,这意味着真实的观测结果在置信状态的更新中扮演着越发重要的角色,预测的观测结果的地位则会不断下降。它并不通过复杂的积分计算出准确的结果,而是对总体的分布进行采样,用样本的经验分布来代替总体的真实分布,用样本的均值来代替总体的积分运算。原创 2023-10-28 23:34:27 · 247 阅读 · 0 评论 -
33 | 序列化建模:隐马尔可夫模型
从上面的图中可以看出,同样的观测结果可能来自于不同的状态,因此可以看成是不同状态的混合,每一个状态都对应着混合结果中的一个成分。而在隐马尔可夫模型中,状态本身不是直接可见的,可见的是取决于状态的输出。在前面的例子里,如果某个时刻的状态是 X3,那就说明上一时刻的状态一定是 X2,因为从状态 X1 是没法直接跳转到 X3 的。回到前面的例子,在选取罐子时,控制者的策略并不是完全随机的,他在某一时刻的选择只取决于前一时刻的选择,而与之前所有时刻的选择都没有关系,这个状态变化的过程就是齐。原创 2023-10-28 23:22:58 · 185 阅读 · 0 评论 -
32 | 从有限到无限:高斯过程
更重要的是,这样的性质对于定义域上的任何子集都成立,也就是不管如何取点、取多少点,这些随机变量的高斯性都能够一致地保持。如果要将上面的参数化过程过渡为完全的非参数化过程,就要摆脱对于参数 w 的依赖,最直接的方法是不定义 w 的先验,而是直接定义在函数空间上的输出 y(x) 的先验,也就是给出 y(x) 取不同形式的概率。(kernel regression)就是一种局部化回归模型,它利用的是核函数的平滑作用,用核函数对未知数据点附近的已知数据点的输出结果进行加权,再将加权的结果作为未知数据点的输出。原创 2023-10-28 22:44:58 · 331 阅读 · 0 评论 -
31 | 建模连续分布:高斯网络
如果一个线性高斯网络具有顺连结构 X1→X2→X3,其中 X1 的概率密度 N(1,4),已知 X1 时 X2 的条件概率密度为 N(0.5X1−3.5,4),已知 X2 时 X3 的条件概率密度为 N(−X2+1,3),试求解整个网络所表示的联合分布。多元高斯分布定义的是成对的马尔可夫随机场,其中的每个势函数都具有二次型的形式。反过来,由于任何合法的高斯分布都具有正定的信息矩阵,所以如果一个成对随机场能够改写成多元高斯分布,那它的势函数的系数所形成的矩阵也必须得满足正定的条件。原创 2023-10-28 22:12:32 · 362 阅读 · 0 评论 -
30 | 无向图模型:马尔可夫随机场
如果两组结点 X 和 Y 通过第三组结点 Z 相连接,X 中的任意一个结点到 Y 中的任意一个结点的路径都要经过 Z 中的结点,而不存在绕过点集 Z 的通路的话,那就可以说 X 和 Y 被 Z 所分离,Z 是 X 和 Y 的分离集(separation set)。说到底,这个例子中的结构就像咬住自己尾巴的贪食蛇,是一个典型的环状结构:每一个结点只与和它相邻的两个结点相关,和其他结点全部条件独立。由于马尔可夫随机场中的变量之间的相互作用不再是明确的条件依赖关系,贝叶斯网络中的条件概率分布也就不再适用了。原创 2023-10-28 20:48:03 · 210 阅读 · 0 评论 -
29 | 有向图模型:贝叶斯网络
但对于狗是不是在外面这个问题,事情就没有那么简单了,它既会受到“家人外出”和“狗犯错”这两个父结点的影响,也会受“听到狗叫”这个子结点的影响,其中每一个的变化都会改变对于“狗在外面”这个论述的判断。这里的 A 和 B 就像两个不同的交际圈,两者你走你的阳关道,我过我的独木桥,只有在 X 的牵线搭桥之下才会有所来往。但在实际当中,这样的条件独立性几乎是不可能满足的,属性之间总会有些概率性的关联,如果将属性之间的关联体现在概率图模型中,就相当于把朴素贝叶斯中互相独立的结点联结起来,得到的正是贝叶斯网络。原创 2023-10-28 20:23:20 · 398 阅读 · 0 评论 -
28 | 最简单的概率图:朴素贝叶斯
由于狄利克雷分布是多项分布的共轭先验,而属性关于类别的二项分布又可以看成是多项分布的特例,因此根据先验计算出来的后验概率也服从狄利克雷分布,只是参数会有所变化。这意味着分类的输出依赖于属性的取值,根据这种依赖关系计算出来的是在不同的属性取值下,分类结果的可能性,也就是条件概率 p(Y∣X)。朴素贝叶斯是最简单的贝叶斯分类器,如果将属性之间相互独立的强限制放宽,得到的就是树增强朴素贝叶斯(tree augmented naive Bayes),它可以看成是朴素贝叶斯到通用的贝叶斯网络的过渡。原创 2023-10-28 19:43:12 · 242 阅读 · 0 评论 -
总结 | 机器学习的模型体系
结构化局部模型的代表是核函数,虽然它原本的目的不在于此,却在事实上起到了局部化的作用。这里我用参数的非线性化来指代属性不变但参数改变的模型,但由于参数本身是常量而非变量,因此参数的非线性化是以自适应调整的方式体现的。局部化是对数据样本所在的特征空间的切割,可分布式表示却是对特征空间的重组,将原来单个的数据点变出了多个分身,分别作为对数据不同角度的观察结果。一手遮天的全局特性限制了模型的灵活性,改进的方法在于将它改造成若干个局部模型的组合,其演进的过程可以描述为“结构化局部——非结构化局部——分布式表示”。原创 2023-10-28 19:19:15 · 453 阅读 · 0 评论 -
27 | 万能模型:梯度提升与随机森林
而随机抽取出的不同属性构成了不同的随机子空间,应用不同的随机子空间去训练不同的单个决策树。显式的提升方法本身可以解释为对一个合适的损失函数的优化,如果将损失函数的选择扩展为任意的可微函数,并将提升方法和最优化中的梯度下降(gradient descent)结合起来,得到的就是梯度提升。对于每棵单独的决策树来说,如果在训练集上能达到 100% 的正确率,那么它所生成的分类边界就适用于所有在所选择属性上和训练数据具有相同取值的新数据,即使这些新数据在没有用于这棵特定决策树分类的属性上有不同的取值也没关系。原创 2023-10-28 17:50:33 · 448 阅读 · 0 评论 -
26 | 集成化处理:Boosting与Bagging
某种意义上说,堆叠法的训练数据不是原始的训练数据集,而是不同基学习器在训练数据集上的结果,起到的是模型平均(model averaging)的作用,提升法和装袋法都可以看成它的特例。每当一个新的弱学习器加入后,数据的权重都会被重新分配(reweighting),被错误分类的样本占据更大的权重,被正确分类样本的权重则被相应地削减,这保证了未来的弱学习器会更多地以前车之覆作为后车之鉴。需要注意的是,装袋法并没有降低偏差的效果,也就没法提升预测的准确性,因此在选择基学习器时,应当以偏差较小的优先。原创 2023-10-28 17:23:05 · 67 阅读 · 0 评论 -
25 | 基于特征的区域划分:树模型
可以看到,在一维的情形下,回归树其实是分段的常数函数,只不过不同分段之间的分界点并不是人为指定,而是通过方差下降的方法计算出来的。文章说明划分的优劣取决于生成的结点中因变量的离散程度,划分之后因变量的取值越集中,划分的效果就越好。因变量的相似性决定了被划分到同一组的数据在输出上的差别较小,自变量的相异性则决定了被划分到不同组的数据在某一个输入属性上的差别较大。在从整体到局部的过渡中,回归树的操作和之前介绍过的回归样条方法一脉相承,采用的都是“分段函数”的思路,但两者的区别在于回归树对特征空间执行的是。原创 2023-10-27 23:55:21 · 199 阅读 · 0 评论 -
24 | 深度编解码:表示学习
在卷积层和下采样层的迭代过程中,低层次的特征不断组合成高层次的特征,数字图像的表示方式也从原始的像素集合变成卷积得到的特征组合,这两个层也就构成了卷积神经网络的编码器。二是卷积网络的层次化结构有助于识别语句中的语言模式,这是循环网络无法做到的。从编解码的全过程来看,如果要构造出有效的表示,自编码器的输入和输出就应该是近似相等的,那它学习的对象是个恒等函数。但在通信中,编解码的对象是底层的语法结构,也就是对携带信息的符号进行编码,通过数据压缩实现信息的高效传输,但输出的符号本身与其所表达的含义并无关联。原创 2023-10-27 23:37:23 · 169 阅读 · 0 评论 -
23 | 层次化的神经网络:深度学习
下面的这个例子来自于约书亚·本吉奥(Yoshua Bengio)等人的大作《深度学习》(Deep Learning),在识别这张图片时,理想的算法应该能够将由像素的灰度值所组成的数组输出“女人”这样的标签,识别的过程就是逐层提取模式的过程。算法的第一层可以根据灰度的空间分布提取出诸如边缘这类在较小的几何尺度上保持不变性的低层次特征,第二层进一步从边缘的组合中抽象出角度和弧度等高级的形状特征,第三层再根据形状的组合抽象出面部和身体等器官的轮廓,最后将这些器官的轮廓组合成关于“女人”的潜在模式。原创 2023-10-27 23:06:05 · 516 阅读 · 0 评论 -
22 | 自适应的基函数:神经网络
神经网络是非参数模型的一种,它利用激活函数对线性模型做出了非线性的扩展,让每个输出变成了权重系数的非线性函数,从而在整体上拟合出非线性的效果。感知器的初始参数是随机生成的,用这组随机参数生成的分类边界是图中的红色虚线。在之后的每一轮训练中,训练结果在验证集上的性能都被拿来和先前存储的模型性能进行比较,之后保留两者中表现较好的模型的配置。神经网络中隐藏神经元的数目决定着网络的泛化性能,足够多的神经元可以实现任意复杂的函数,却也会带来严重的过拟合倾向,因而通过正则化的手段来控制网络的复杂度和性能是非常必要的。原创 2023-10-27 22:09:41 · 373 阅读 · 0 评论 -
21 | 基函数扩展:属性的非线性化
平滑系数的作用就是通过控制模型的平滑度来实现偏差和方差的折中。其实,多项式回归和局部化的非参数方法可以说是殊途同归,两者的目的都是模拟自变量和因变量之间的非线性关系,因此用非参数模型来实现非线性化是水到渠成的方式。这说明回归式中的和属性相关的每一项对输出的贡献程度都是固定的,但这些贡献到底以什么样的形式来输出,是属性取值本身还是它的平方抑或开根号,线性模型并没有做出指定。一般来说,拼接起来的样条在结点上需要满足连续性的条件:最简单的是函数本身的连续性,也就是临界点的左极限与右极限相等,都等于函数值。原创 2023-10-27 19:15:53 · 262 阅读 · 0 评论 -
20 | 基于距离的学习:聚类与度量学习
当所有样本的聚类归属都确定后,再计算每个簇中所有样本的算术平均数,将结果作为更新的聚类中心,并将所有样本按照 k 个新的中心重新聚类。这个式子里的 πk 是混合系数(mixing coefficient),表示的是每个单独的高斯分布在总体中的权重,后面的 N(x∣μk,Σk) 则是在被选中的高斯分布中,数据 x 取值的概率。截至目前,我所介绍的模型都属于监督学习范畴,它们处理具有标签的输入数据,给出意义明确的输出,回归模型输出的是连续的回归值,分类模型输出的是离散的类别标签,这些模型都属于。原创 2023-10-27 18:24:09 · 279 阅读 · 0 评论 -
19 | 非参数化的局部模型:K近邻
在基于近邻的密度估计中,近邻点的数目 k 是唯一的参数,每个数据点的带宽就是第 k 个最近点和它的距离。k 均值的分类结果实质上是近邻区域内(就是上图中的圆圈)多个训练实例的平均,越大的 k 值意味着近邻区域包含的点数越多,平均化的程度就越高,对训练实例中噪声的平滑效果也就越好,相应的模型复杂度就越低。而径向基核的出现一定程度上打破了这种规律,它将普适的全局特性打散成若干局部特性的组合,每个局部特性只能在它所覆盖的近邻区域内得以保持,由此产生的非结构化模型会具有更加灵活的表示能力。原创 2023-10-27 17:29:27 · 169 阅读 · 0 评论 -
18 | 从全局到局部:核技巧
假设待分类的四个点 (x1,x2) 分别为 (±0,±1),那么只需要添加一个多项式形式的新属性 ϕ(x)=(x1−x2)2,就可以将原来的四个点分别映射为三维空间上的 (0, 0, 0), (0, 1, 1), (1, 0, 1) 和 (1, 1, 0)。对于不是支持向量的数据点来说,等式右侧第二项中的 1−yi(w⋅xi+b) 是小于 0 的,因此在让 L(w,b,α) 最小化时,必须把这些点的贡献去除,去除的方式就是让系数 αi=0。在结果中,较大的 C 让最优决策边界有过拟合的趋势。原创 2023-10-27 16:33:24 · 135 阅读 · 0 评论 -
17 | 几何角度看分类:支持向量机
在上面的二分类问题中,边界 H2 过于靠近一些训练数据,那么这些靠近边界的数据受噪声或干扰影响时,得到的真实数据就更容易从一个类别跳到另外一个类别,导致分类的错误和泛化性能的下降。(duality)。如此看来,能够入你法眼的停火线就只有 H3 了,它既保证了所有士兵都驻扎在自己的阵地当中(数据中没有分类错误),又划定出足够宽阔的非交战区,杜绝了偷袭的可能性(数据与决策边界的距离足够大)。在旋转的过程中,两个不动点之间的欧氏距离是不变的,但两条线的斜率一直在改变,因此它们之间的距离也会不断变化。原创 2023-10-27 15:25:18 · 123 阅读 · 0 评论 -
16 | 建模非正态分布:广义线性模型
元素的半衰期和原子的总量无关,100 个原子中衰变 50 个的时间和剩下的 50 个原子中衰变 25 个的时间是一致的。在求解时,狭义的线性模型建立在最小均方误差的意义上,其解析解可由普通最小二乘法求得,求解时的一个基本前提是因变量,也就是回归结果的误差服从正态分布。泊松分布适用于描述单位时间或空间内随机事件发生的次数,比如电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等。线性模型的意义是建立了自变量和因变量的关联,当自变量变化时,因变量也会出现依照比例同等程度的变化。原创 2023-10-27 14:43:20 · 1080 阅读 · 0 评论 -
15 | 从回归到分类:联系函数与降维
用上面的数据集训练使用不同的线性分类模型,得到的效果也不相同。在二分类问题中,若假设当 x 属于类 C1 时,输出的分类结果 r 为 1,属于类 C2 时,输出的分类结果 r 为 0,那么每个单独的分类结果都满足参数为 σ(x) 的两点分布,所有结果构成的向量 r 就会满足二项分布,这时的似然概率就可以写成分类结果的连乘。在计算二分类问题的决策边界时,线性判别分析首先要计算两个类别中数据的均值,以此作为特征来区分不同的类别,让不同类别的数据足够远离就是让两个均值在决策边界上的投影之间的距离足够大。原创 2023-10-27 14:06:43 · 145 阅读 · 0 评论 -
14 | 非线性降维:流形学习
北京和纽约两点在三维空间中的欧氏距离对应的是三维空间中的直线,而这条直线位于地球仪的内部——按照这种理解距离的方式,从北京去纽约应该坐一趟穿越地心的直达地铁。如图所示的瑞士卷是常见的糕点,只是它的名字未必像它的形状一样广为人知。Scikit-learn 中包括了执行流形学习的 manifold 模块,将常用的流形学习方法打包成内置类,调用 Isomap、LocallyLinearEmbedding 和 TSNE 等类就可以计算对应的流形,算法的细节都被隐藏在函数内部,只需要输入对应的参数即可。原创 2023-10-27 11:27:05 · 575 阅读 · 0 评论 -
13 | 线性降维:主成分的使用
其中的 uj 是矩阵 U 的列向量,也是 X 的列空间的一组正交基,而岭回归计算出的结果正是将训练数据的输出 y 投影到以 uj 为正交基的子空间上所得到的坐标。主成分分析是典型的特征提取方法,它和收缩方法的本质区别在于将原始的共线性特征转化为人为生成的正交特征,从而带来了数据维度的约简和数据压缩的可能性。可以看出,经过变换后的数据点依然分散在整个二维平面上,但根据它们在横轴上的取值已经可以近似地将数据划分为两个类别,其原因很可能是蓝线两侧的数据代表了两种类型的球队风格,就像来自两个高斯分布的随机数。原创 2023-10-27 10:46:25 · 92 阅读 · 0 评论 -
12 | 正则化处理:收缩方法与边际化
和 LASSO 相比,岭回归保留了所有的特征,并给门将的表现赋予了接近于 0 的权重系数,以削弱它对结果的影响,其它的权重系数也和原始多元回归的结果更加接近。图中的蓝色点表示普通最小二乘法计算出的最优参数,外面的每个蓝色圆圈都是损失函数的等值线,每个圆圈上的误差都是相等的,从里到外误差则越来越大。积分的第一项是最大似然估计的解,第二项则是参数满足的先验分布,经过复杂的计算可以得出,积分结果仍然具有正态分布的形式,下面的任务就是找到使训练数据 y 出现概率最大的一组超参数 α 和。原创 2023-10-27 08:57:45 · 135 阅读 · 0 评论 -
11 | 基础线性回归:一元与多元
利用 OLS 模型可以得到多元回归的结果,可如果对结果加以分析,就会发现一个有趣的现象:一方面,多元模型的校正决定系数是 0.876,意味着所有位置评分共同解释了输出结果的大部分变化,这也可以从预测值与真实值的散点图上观察出来;一名武士在竹林中被杀,不同当事人的供词既是不同程度上的事实,也是不同角度下的谎言。将“罗生门”深挖一步,就是机器学习和统计学在认识论上的差异:统计学讲究的是“知其然,知其所以然”,它不仅要找出数据之间的关联性,还要挖出背后的因果性,给计算出的结果赋予令人信服的解释才是统计的核心。原创 2023-10-26 23:20:58 · 879 阅读 · 0 评论 -
10 | 特征预处理
可是如果把其中一个模特的体重换成相扑运动员的体重,这个数据集的均值就会产生明显的上升,数据的直方图也会朝新均值的反方向产生明显的偏移。在上面的例子中,由于体重数据比身高数据高出了一个数量级,因此在计算欧式距离时,身高的影响相比于体重是可以忽略不计的,起作用的相当于只有体重一个特征,这样的算法自然就会把体重相近的划分到同一个类别。无论机关、事业单位还是企业,工资的分布大抵都是这样。的概率分布示意图,从中可以看出具有偏度的分布的形状都是类似的:一侧是瘦高的形状,占据了概率分布的大部分,另一侧则是比较长的拖尾。原创 2023-10-26 20:58:04 · 55 阅读 · 0 评论 -
09 | 实验设计
这个假设在实际的学习任务中显然并不总是成立的,埃塞姆·阿帕丁( Ethem Alpaydin)在他的《机器学习导论》(Introduction to Machine Learning, 3rd Edition)中提到,在主成分分析的预处理与 K 近邻分类的级联算法中,主成分数目的每个选择都给后面的 K 近邻定义出一个全新的输入空间,这会使 K 近邻的最优超参数出现变化——在 10 维输入中计算出的最优近邻数目未必适用于 15 维的输入。在得到的响应面上寻找最值,找到的就是最优的因子取值。原创 2023-10-26 17:11:44 · 95 阅读 · 0 评论 -
08 | 模型的评估指标
这个例子就是一个典型的二分类问题。(这又是频率主义直观的看法)但是需要注意的是,错误的分类不仅包括假阳性这一种情况,假阴性也要考虑在内——也就是确实生病的患者没有被检查出来的情形,假阳性和假阴性共同构成所有的误分类结果。已知检查的准确率是 95%,也就是此病患者的检查结果 95% 会出现阳性,非此病患者的检查结果 95% 会出现阴性,同时在 Jo 的类似人群中,此病的发病率是 1%。无识别率线描述的是随机猜测的模型,以 0.5 的概率将新来的实例判定为正例,这种模型的 TPR 和 FPR 是处处相等的。原创 2023-10-26 14:12:07 · 61 阅读 · 0 评论 -
07 | 模型的验证方法
上图就是一个典型的过拟合例子:黑点代表的离散数据可以看成是满足线性关系的原始数据和随机噪声的叠加,受噪声的影响,即使是生成数据的直线也不能完全拟合数据,总归存在一定的残留误差。做老师的都知道,一次考试中的学生成绩应该是近似满足正态分布的,所以在评估教学效果时,学生样本的构成就至关重要:如果选的都是成绩较好的学生,那他们在自习室自学的效果可能还比上课更好;由于模型的泛化性能和它的复杂度是直接挂钩的,所以模型验证的任务就是确定模型的复杂度以避免过拟合的发生。模型在验证集上的性能是模型选择和评估的依据。原创 2023-10-24 15:46:45 · 1288 阅读 · 0 评论 -
06 | 模型的设计准则
如果把不同模型看成一个班级里的不同学生,不同问题看成考试时的不同科目,NFL 定理说的就是在这个班里,所有学生期末考试的总成绩都是一样的,既然总成绩一样,每一科的平均分自然也是一样的。奥卡姆剃刀是人类思维的一种直观的体现,你我在不经意间都会用到它:当看到 1,2,4,8 这几个数时,对下一个出现的数字,你的第一反应一定是 16,因为这一系列数字里蕴含的最简单的规律是等比数列关系,而不是什么包含十几二十个参数的高阶多项式,这个复杂的结果直接被头脑中的那把剃刀无意识地砍掉了。原创 2023-10-24 15:03:02 · 156 阅读 · 0 评论 -
05 | 模型的分类方式
一般来说,生成模型的求解更加复杂,当数据量趋于无穷大时,渐进条件下的精确性也更差,但其收敛的速度更快,在较少数据的训练后就可以收敛到错误的下界。所以在参数模型的学习中,算法的任务就是求出这些决定概率特性的参数,只要参数确定了,数据的统计分布也就确定了,即使未知的数据无穷无尽,我们也可以通过几个简单的参数来确定它们的性质。先验知识会假定数据满足特定的先验分布,学习的过程就是利用训练数据估计未知参数的过程,一旦得出未知参数的估计结果,训练数据就完成了它的历史使命,因为这些估计出来的参数就是训练数据的浓缩。原创 2023-10-24 14:16:54 · 415 阅读 · 0 评论 -
04 | 计算学习理论
就是异或问题的两种情况,也就是红色图示中的特例。下图就是来自于加州理工大学教授亚瑟·阿布 - 穆斯塔法(Yaser S. Abu-Mostafa)的课程 Learning from Data 中的一个例子:假设输入 x 是个包含三个特征的三维向量,输出 y 则是二元的分类结果,训练集中包含着五个训练数据,学习的任务是预测剩下的三个测试数据对应的分类结果。在这里,作为总体参数的 μ 是个未知量,其估计方法就是从袋子里抽出若干个球作为样本,样本中的红球比例 ν 是可以计算的,也是对未知参数 μ 最直接的估计。原创 2023-10-24 11:47:36 · 143 阅读 · 0 评论
分享