机器学习
文章平均质量分 84
机器学习
sunghosts
这个作者很懒,什么都没留下…
展开
-
2023:人工智能年
在今年的人工智能进步领域,取得了显着的进展,改进了现有技术,而不是引入类似于 前一年的 ChatGPT 或图像生成器的突破性创新。虽然没有令人惊叹的效果,而且真正的通用人工智能 (AGI) 还很遥远,但今年标志着之前的突破和即将到来的更强大的东西之间的中间阶段。翻译 2024-03-28 13:52:47 · 21 阅读 · 0 评论 -
当用支持向量机进行分类时,支持向量越多越好还是越少越好
转:https://www.zhihu.com/question/267666488/answer/347728105以下的实验和观点是基于sklearn.svm.SVC,kernel是rbf,数据集用的是iris其中两个class的前两个维度。对于其它类型的svm算法或者不同的kernel,如果结论和这个有差别,以后会补充。先放结论:对于使用rbf kernel的支持向量机(svm/svc)参数C和gamma都会影响支持向量的数量。参数C越大,支持向量的数量越少。仅凭支持向量的数量,不能很好地转载 2021-07-12 15:14:51 · 2254 阅读 · 1 评论 -
l1 相比于 l2 为什么容易获得稀疏解?
假设损失函数L和某个参数 x 的关系如图所示:则最优的 x 在绿色点处, x 非零。现在使用 L2 正则化,新的损失函数 L+Cx2L+Cx^2L+Cx2 如图中蓝色线所示:(加了一个大于等于0的数字,图像变化)最优的 x 点在黄色处,但 x 非零。f(x)=L+Cx2f′(x)=L′+2Cxf′(x)=0f(x) = L+C x^2 \\ f'(x) = L' + 2Cx \\ f'(x)=0f(x)=L+Cx2f′(x)=L′+2Cxf′(x)=0当导数等于0的时候,因为 L′L'L′在x原创 2021-07-06 15:57:37 · 153 阅读 · 0 评论 -
卷积神经网络CNN
卷积卷积这个概念最先在数学中学过,先看看下图卷积神经网络的计算过程。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-skNNAJmP-1620444467507)(D:\BLOG\图片\2109486090.gif)]上图卷积的计算跟数学中的卷积是不一样的。但在深度学习中我们还是称为卷积CNN的基本结构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YWImpoko-1620444467510)(D:\BLOG\图片\1042406-20原创 2021-05-08 11:30:07 · 312 阅读 · 0 评论 -
TextRank
TextRank 是由 PageRank 改进而来,其公式:WS(Vi)=(1−d)+d∗ΣVj∈In(Vi)wjiΣVk∈Out(Vj)WS(Vj)WS(V_i)=(1-d)+d*\Sigma_{V_j \in In(V_i)}\frac{w_{ji}}{\Sigma_{V_k \in Out(V_j)}}WS(V_j)WS(Vi)=(1−d)+d∗ΣVj∈In(Vi)ΣVk∈Out(Vj)wjiWS(Vj)TextRank用于关键词提取的算法如下 :把给定的文本 T 按照完整原创 2021-03-13 21:44:16 · 110 阅读 · 0 评论 -
PageRank
PageRank算法是谷歌两位创始人发明的网页排序算法,根据网页重要性排名,对网页进行推荐的算法。互联网可以看作是一个巨大的网络,网络中的节点就是网站,节点之间的边是网站之间的链接。如何评价图中节点的重要性呢?PageRank算法用一个pagerank值来衡量网页的重要性,那这个值怎么计算呢?PageRank算法有两个核心思想如果一个网页被很多其他网页链接到的话,说明这个网页比较重要,也就是 PageRank 值会相对较高如果一个 PageRank 值很高的网页链接到一个其他的网页,那么链接到的网原创 2021-03-13 17:26:37 · 609 阅读 · 1 评论 -
分词的准确率和召回了如何定义
转:https://blog.csdn.net/u012297539/article/details/111864251但是在分词中标准答案和分词结果数不一定相等,因此要做一个思维转换。对于长度为n 的字符串,分词结果是一系列单词。设每个单词按照其在文本中的起止位置可以记作区间 [i , j],其中 1≤i≤j≤n1\leq i\leq j\leq n1≤i≤j≤n。那么标准答案所有区间构成集合A为正类,其它情况作为负类。同时,分词结果所有单词构成的区间集合为B。从图表中可以看出,重合部分就是正确部转载 2021-02-26 14:31:50 · 527 阅读 · 0 评论 -
蒙特卡洛方法
蒙特卡罗方法引入蒙特卡罗原来是一个赌场的名称,用它作为名字大概是因为蒙特卡罗方法是一种随机模拟的方法,这很像赌博场里面的扔骰子的过程。最早的蒙特卡罗方法都是为了求解一些不太好求解的求和或者积分问题。比如积分:θ=∫abf(x)dx\theta = \int_a^b f(x)dxθ=∫abf(x)dx如果我们很难求解出 f(x)f(x)f(x) 的原函数,那么这个积分比较难求解。当然我们可以通过蒙特卡罗方法来模拟求解近似值。如何模拟呢?假设我们函数图像如下图:则一个简单的近似求解方法是在[a,b]转载 2020-08-04 00:54:33 · 498 阅读 · 0 评论 -
概率图模型(3)--条件随机场(3)
转:https://www.cnblogs.com/pinard/p/7068574.html本文我们关注于linear-CRF的第二个问题与第三个问题的求解。第二个问题是模型参数学习的问题,第三个问题是维特比算法解码的问题。linear-CRF模型参数学习思路在linear-CRF模型参数学习问题中,我们给定训练数据集 X 和对应的标记序列 Y,K 个特征函数 fk(x,y)f_k(x,y)fk(x,y) ,需要学习linear-CRF的模型参数 wkw_kwk 和条件概率 Pw(y∣x)P_w转载 2020-07-29 00:30:11 · 97 阅读 · 0 评论 -
概率图模型(3)--条件随机场(2)
转:https://www.cnblogs.com/pinard/p/7055072.htmllinear-CRF的三个基本问题linear-CRF也有三个类似的的基本问题。不过和HMM不同,在linear-CRF中,我们对于给出的观测序列 x 是一直作为一个整体看待的,也就是不会拆开看 (x1,x2,...)(x_1,x_2,...)(x1,x2,...) ,因此linear-CRF的问题模型要比HMM简单一些,如果你很熟悉HMM,那么CRF的这三个问题的求解就不难了。linear-CRF第一个转载 2020-07-28 22:44:41 · 85 阅读 · 0 评论 -
概率图模型(2)--条件随机场(1)
什么样的问题需要CRF模型假设我们有Bob一天从早到晚的一系列照片,Bob想考考我们,要我们猜这一系列的每张照片对应的活动,比如: 工作的照片,吃饭的照片,唱歌的照片等等。一个比较直观的办法就是,我们找到Bob之前的日常生活的一系列照片,然后找Bob问清楚这些照片代表的活动标记,这样我们就可以用监督学习的方法来训练一个分类模型,比如逻辑回归,接着用模型去预测这一天的每张照片最可能的活动标记。这种办法虽然是可行的,但是却忽略了一个重要的问题,就是这些照片之间的顺序其实是有很大的时间顺序关系的,而用上面的方原创 2020-07-27 00:26:42 · 203 阅读 · 0 评论 -
偏差与方差
对学习算法除了通过实验估计其性能,人们往往还希望了解它“为什么”具有这样的性能。“偏差-方差分解”是解释学习算法泛化性能的一种重要工具。对测试样本 xxx ,令 yDy_DyD 为 x 在数据集中的标记,yyy 为 x 的真实标记,f(x;D)f(x; D)f(x;D) 为训练集 DDD 上学得模型 fff 在 x 上的预测输出。以回归任务为例,算法的期望预测为:f‾(x)=ED[f(x;D)](1)\overline f(x)=E_D[f(x;D)] \tag{1}f(x)=ED[f(x;D)]原创 2020-07-26 00:15:50 · 192 阅读 · 0 评论 -
概率图模型(2)--马尔科夫随机场
马尔可夫随机场(MRF)是典型的马尔可夫网,是一种著名的无向图模型。每个节点表示一个或一组变量,节点之间之间的边表示两个变量之间的依赖关系,马尔可夫随机场有一组势函数,定义在变量子集上的非负实函数,主要用于定义概率分布函数。**对于图中节点的一个子集,若其中任意两节点间都有边连接,则称该节点子集为一个“团”。若在一个团中加入另外任何一个节点都不再形成团,则称该团为“极大团”。**显然,每个节点至少出现在一个极大团中。在马尔可夫随机场中,多个变量之间的联合概率分布能基于团分解为多个因子的乘积,每个因子仅原创 2020-07-25 18:39:31 · 514 阅读 · 0 评论 -
概率图模型(1)--隐马尔科夫模型(2)
HMM模型参数求解概述HMM模型参数求解根据已知的条件可以分为两种情况。第一种情况较为简单,就是我们已知 D 个长度为 T 的观测序列和对应的隐藏状态序列,即 {(O1,I1),(O2,I2),...(OD,ID)}\{(O_1, I_1), (O_2, I_2), ...(O_D, I_D)\}{(O1,I1),(O2,I2),...(OD,ID)} 是已知的,此时我们可以很容易的用最大似然来求解模型参数。假设样本从隐藏状态 qiq_iqi 转移到 qjq_jqj 的频率计数是 Ai转载 2020-07-24 00:59:17 · 134 阅读 · 0 评论 -
概率图模型(1)--隐马尔科夫模型(1)
定义隐马尔可夫模型是结构最简单的动态贝叶斯网,是一种著名的有向图模型,主要用于时序建模,在语音识别、自然语言处理领域有广泛应用。隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测随机序列的过程。上图中箭头表示了变量间的依赖关系。在任一时刻,观测变量的取值仅依赖于状态变量,即 xtx_txt 由 yty_tyt 确定,与其他状态变量及观测变量的取值无关。同时,ttt 时刻的状态 yty_tyt 仅依赖 t−1t-1t−1 时刻的原创 2020-07-23 01:38:24 · 347 阅读 · 0 评论 -
集成学习(4)--XGBoost
XGBoost是GBDT的一种高效实现,但是里面也加入了很多独有的思路和方法,值得单独讲一讲。因此讨论的时候,我会重点分析和GBDT不同的地方。本文主要参考了XGBoost的论文和陈天奇的PPT。从GBDT到XGBoost作为GBDT的高效实现,XGBoost是一个上限特别高的算法,因此在算法竞赛中比较受欢迎。简单来说,对比原算法GBDT,XGBoost主要从下面三个方面做了优化:一是算法本身的优化:在算法的弱学习器模型选择上,对比GBDT只支持决策树,还可以直接很多其他的弱学习器。在算法的损失函数转载 2020-07-19 18:06:13 · 132 阅读 · 0 评论 -
集成学习(3)--GBDT
梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)。GBDT有很多简称,有GBT(Gradient Boosting Tree), GTB(Gradient Tree Boosting ), GBRT(Gradient Boosting Regression Tree), MART(Multiple Additive Regression Tree),其实都是指的同一种算法,本文统一简称GBDT。GBDT在BAT大厂中也有广泛的应用,假如要选择3个最重要的机器学习转载 2020-07-19 01:34:32 · 132 阅读 · 0 评论 -
集成学习(2)--bagging与随机森林
给定一个训练集,对训练样本进行采样,产生出若干个不同的子集,再从每个子集中训练一个基学习器。由于训练数据不同,基学习器可望有比较大的差异。但如果采样出的每个子集都完全不同,则每个基学习器只用到一小部分训练数据,甚至不足以有效学习,也就无法产生好的学习器。可以使用相互有交叠的采样子集解决。BaggingBagging是并行集成学习方法的代表,从名字可以看出它是基于自助采样法。即有放回的采样。给定包含 mmm 个样本的数据集,可采样出 TTT 个含 mmm 个训练样本的采样集,用每个采样集训练一个基学习器原创 2020-07-18 20:36:23 · 822 阅读 · 0 评论 -
集成学习(1)--Boosting与AdaBoost
个体与集成集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。下图是集成学习的一般结构:先产生一组“个体学习器”再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据产生,如C4.5决策树算法、BP神经网络等。集成时只包含同种类型的个体学习器,这样的集成是“同质”的,个体学习器也称为基学习器;集成时包含不同学习算法,这样的集成是“异质”的,个体学习器一般不叫基学习器,通常叫“组件学习器”。[外链图片转存失败,源站可能有防盗链机制,建议将图片保原创 2020-07-18 13:20:40 · 208 阅读 · 0 评论 -
EM算法
介绍我们经常会从样本观察数据中,找出样本的模型参数。 最常用的方法就是极大化模型分布的对数似然函数。很多算法中我们经常假设训练样本所有属性变量的值都已被观测到,即训练样本是“完整”的,但现实应用中,往往会遇到“不完整”的情况。没有观察到的变量叫做隐变量。令 X 表示已观测变量集,Z 表示隐变量集,Θ\ThetaΘ 表示模型参数。若欲对Θ\ThetaΘ 做极大似然估计,则应最大化对数似然LL(Θ∣X,Z)=lnP(X,Z∣Θ)(1)LL(\Theta|X,Z)=ln P(X,Z|\Theta) \ta原创 2020-07-16 00:51:47 · 136 阅读 · 0 评论 -
贝叶斯分类器
贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法。假设有N种可能的类别标记,即 y=(c1,c2,...,cN)y=(c_1,c_2,...,c_N)y=(c1,c2,...,cN) , λij\lambda_{ij}λij 是将一个真实标记为 cjc_jcj 的样本误分类为 cic_ici 所产生的损失。基于后验概率 P(ci∣x)P(c_i|x)P(ci∣x) 可获得将样本 x 分类为 cic_ici 所产生的期望损失,即在样本 x 上的条件风险R(ci∣x)=∑j=1Nλi原创 2020-07-15 22:34:28 · 249 阅读 · 0 评论 -
支持向量机(三)
软间隔与正则化在现实中,训练数据集不一定能用超平面完全划分开,提出允许支持向量机在一些样本上出错,引入“软间隔”的概念。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OqIFwtwY-1594659097723)(https://github.com/sunshineflg/img/blob/master/.jpg?raw=true)]要求所有样本都必须划分正确,称为“硬间隔”,软间隔允许某些样本不满足约束yi(wTxi+b)≥1y_i(w^T x_i +b) \ge原创 2020-07-14 00:52:58 · 168 阅读 · 0 评论 -
支持向量机(二)
核函数异或问题不是线性可分的,对这样的问题,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使样本可分。令 ϕ(x)\phi(x)ϕ(x) 表示将 xxx 映射后的特征向量,于是,在特征空间中划分超平面所对应的模型可表示为f(x)=wTϕ(x)+bf(x)=w^T \phi(x) + bf(x)=wTϕ(x)+b类似上篇博客提到的对偶问题,映射后的公式如下:maxα∑i=1mαi−12∑i=1m∑j=原创 2020-07-14 00:50:57 · 317 阅读 · 0 评论 -
支持向量机(一)
支持向量机是一种二分类模型,基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机包括核技巧,这使它称为实质上的非线性分类器。支持向量机的学习算法是求解凸二次规划的最优化算法。由简至繁的模型:线性可分支持向量机、线性支持向量机和非线性支持向量机。当数据线性可分时,通过硬间隔最大化,学习线性可分支持向量机;当训练数据近似线性可分时,通过软间隔最大化,学习线性支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。线性可分支持向量机假设分类问原创 2020-07-10 01:53:47 · 144 阅读 · 0 评论 -
感知机与多层网络
定义神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。神经元接收来自n个其他神经元传递过来的输入信号,这些输入信息通过带权重的连接进行传递,神经元接收到总输入将与神经元的阈值进行比较,然后通过**激活函数(响应函数)**处理以产生神经元的输出。激活函数一般是sigmoid函数。把这样的神经元按照一定的层次结构连接起来,就得到了神经网络。神经网络包含了很多参数,如10个神经元两两连接,则有100个参数:90个连接权和10个阈值。感原创 2020-07-07 01:16:35 · 1590 阅读 · 0 评论 -
决策树
决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法,也可以作为回归算法,同时也特别适合集成学习比如随机森林。决策树算法主要有:ID3, C4.5和CART,scikit-learn使用了优化版的CART算法作为其决策树算法的实现。基本流程一般的,一棵决策树包含一个根节点、若干个内部结点和若干个叶节点;叶节点对应于决策结果,其他每个节点对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。决策树算法流程如下:输入:训练集 D = {(x1原创 2020-07-06 00:15:15 · 429 阅读 · 0 评论 -
线性模型--多分类学习
有些二分类学习方法可以直接推广到多分类,但更多情形下,是基于一些策略,利用二分类学习器解决多分类问题。多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。具体来说,先对问题进行拆分,然后为拆分的每个二分类任务训练一个学习器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。最经典的拆分策略有三种:一对一(One vs. One, OvO),一对其余(One vs. Rest, OvR,也称为OvA)和多对多(Many vs. Many,MvM)。如果类别个数是N,对原创 2020-07-02 23:56:38 · 752 阅读 · 0 评论 -
线性模型--对数几率回归(逻辑回归)算法
对数几率回归又常常称为逻辑回归,逻辑斯谛回归如果是分类任务,如何使用线性回归模型呢?答案在广义线性模型的公式中,只需要找到一个单调可微函数将分类任务的真实标记y 与线性回归模型的预测值联系起来。考虑二分类任务,输出 $y \in ${0,1} , 线性回归的预测值 z=wTx+bz=w^Tx + bz=wTx+b 是实值,需要对 z 进行转化,最理想的转换函数是单位阶跃函数,即预测值大于0时,判断正,小于0,判断负,等于0,则随机。但该函数是分段函数,是不连续函数,不符合广义线性模型中“联系函数”的要原创 2020-07-02 23:54:13 · 2032 阅读 · 0 评论 -
线性模型--线性回归算法
基本形式示例 x =(x1;x2;......;xdx_1; x_2; ......; x_dx1;x2;......;xd), 由 d 个属性组成,线性模型试图学得一个通过属性的线性组合来进行预测的函数,f(x)=w1x1+w2x2+...+wdxd+bw_1x_1+w_2x_2+...+w_dx_d+bw1x1+w2x2+...+wdxd+b向量形式为:f(x)= wTxw^T xwTx + b线性模型形式简单、易于建模,却蕴涵着机器学习中的一些重要的基本思想。许多更强大的非原创 2020-06-30 23:38:35 · 217 阅读 · 0 评论 -
numpy--pad函数的常用方法
参数解释ndarray = numpy.pad(array, pad_width, mode, **kwargs)array为要填补的数组pad_width是在各维度的各个方向上想要填补的长度,如((1,2),(2,2)),表示在第一个维度上水平方向上padding=1,垂直方向上padding=2,在第二个维度上水平方向上padding=2,垂直方向上padding=2。如果直接输入一个整数,则说明各个维度和各个方向所填补的长度都一样。mode为填补类型,即怎样去填补,有“const原创 2020-06-29 15:27:11 · 361 阅读 · 0 评论 -
西瓜书零碎
离散化**离散属性连续化:**如果属性值间有“序”的关系,如身高的高和矮转成{1.0, 0.0},三值属性高、中和低转化成{1.0,0.5, 0.0};如果不存在序的关系,转化成 k 维向量,如西瓜、南瓜、黄瓜转成(0,0,1)(0,1,0)(1,0,0)若将无序属性连续化,则会不恰当地引入序关系,对后续处理如距离计算等造成误导,比如评估时,经常需要计算距离基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。...原创 2020-06-28 23:37:39 · 380 阅读 · 0 评论 -
性能度量--分类任务
分类任务错误率与准确率错误率是分类错误的样本占样本总数的比例。准确率等于1减去错误率。查全率,查准率首先说一下混淆矩阵 真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反...原创 2020-04-15 23:20:00 · 404 阅读 · 1 评论 -
评估方法--从样例数据集中产生训练集和测试集
从样例数据集中产生训练集和测试集的几种常见做法。留出法直接将数据集D划分为两个互斥的集合,其中一个集合做训练集S,另一个做测试集T。从采样的角度来看待数据集的划分过程,保留类别比例的采样方式通常称为分层采样。给定训练/测试集的比例后,对数据集D的分割方式有很多种,不同的划分导致不同的训练/测试集,模型评估的结果也会有差别。单次留出法不够稳定,一般采用多次随机划分,重复进行实验评估后取平均作...原创 2020-04-14 00:58:33 · 1764 阅读 · 0 评论 -
经验误差和过拟合
**错误率(error rate)**分类错误的样本数占样本总数的比例准确率=1 - 错误率误差学习器的实际预测输出与样本的真实输出之间的差异在训练集上的误差叫训练误差或经验误差;在新样本上的误差称为泛化误差。过拟合:训练误差很小,泛化误差大欠拟合:训练误差很大欠拟合容易克服,但过拟合是机器学习面临的关键障碍,是无法避免的。的关键障碍,是无法避免的。...原创 2020-04-12 22:02:05 · 212 阅读 · 0 评论 -
假设空间&归纳偏好
假设空间归纳从特殊到一般,“从样例中学习”也叫做“归纳学习”演绎从一般到特殊归纳学习有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,也称为概念学习。概念学习最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。学习的过程是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能...原创 2020-04-02 22:51:16 · 527 阅读 · 0 评论 -
基本术语
数据集示例,样本属性,特征属性空间,样本空间,输入空间属性张成的空间特征向量属性在属性空间中用一组坐标表示样本的维数训练,学习从数据中学得模型的过程训练数据训练样本,训练示例,训练例训练数据中的一个样本训练集训练样本组成的集合假设学得模型对应了关于数据的某种潜在的规律标记样例拥有标记的示例标记空间、 输出空间分类任务预测的是离散值回归任务预测的值连续...原创 2020-04-01 23:12:08 · 153 阅读 · 0 评论