机器学习
文章平均质量分 57
CC‘s World
这个作者很懒,什么都没留下…
展开
-
【机器学习】神经网络中的优化器
SGD、Momentum、NAG和AdaGrad这篇讲的很好RMSProp、Adam这篇讲的很好这篇可以看看递推原创 2022-08-07 15:35:42 · 1140 阅读 · 0 评论 -
【机器学习】图卷积网络GCN的原理及Pytorch实现
一、背景知识1.1 GCN的作用欧几里得结构:CNN处理的数据是矩阵形式,就是以像素点排列成的矩阵为基础。称为Euclidean Structure,欧几里得结构。拓扑结构(图结构):GCN处理的数据是图结构,即Non Euclidean Structure非欧几里得结构,拓扑结构。如社交网络连接,信息网络等等。对于Non euclidean structure的数据,卷积神经网络就没有用了。对于卷积神经网络CNN,图片中提取特征,可以采用卷积的方式提取特征。但是对于拓扑结构,只能用其他方法来提取特原创 2022-03-16 17:23:55 · 3977 阅读 · 0 评论 -
【机器学习】图神经网络
图神经网络是一种直接在图结构上运行的神经网络。GNN 的一个典型应用是节点分类。本质上,图中的每个节点都与一个标签相关联,我们的目的是预测没有 ground-truth 的节点的标签。将node编码到特征空间:将卷积神经网络中的方法泛化到graph中,用邻居节点来update该节点的feature——基于空间的卷积。【NN4G(Neural Networks for Graph )】【DCNN(Diffusion-Convolutional Neural Network)】其中,d(3,原创 2020-07-01 17:01:12 · 465 阅读 · 0 评论 -
【机器学习】 下采样
定义:对于一个样值序列间隔几个样值取样一次,这样得到新序列就是原序列的下采样。实际上,下采样就是抽取。缩小图像(或称为下采样(subsampled)或降采样(downsampled))的主要目的有两个:1、使得图像符合显示区域的大小;2、生成对应图像的缩略图。放大图像(或称为上采样(upsampling)或图像插值(interpolating))的主要目的是放大原图像,从而可以显示在更高分辨率的显示设备上。参考资料:1.https://baike.baidu.com/item/下采样/754538?f原创 2020-05-19 11:28:24 · 1308 阅读 · 0 评论 -
【机器学习】 模拟退火算法
【爬山算法】爬山算法是一种贪心搜索算法,该算法每一步从当前解的临近解空间中选择一个最优解作为当前解,直至达到某个局部最优解。【模拟退火算法】模拟退火算法也是一种贪心算法,但在它的搜索过程中引入了一个随机因素——以一定的概率来接受一个比当前解要差的解。故而模拟退火算法有可能跳出局部的最优解,达到全局的最优解。即:若移动后得到最优解,则总是接受该移动;若移动后的解比当前解差,则以一定的概率接受移...原创 2020-04-27 17:04:17 · 710 阅读 · 0 评论 -
【机器学习】 激活函数和代价函数
【激活函数】如果没有激活函数,那么神经网络模型就是一个线性模型;即便有再多的隐藏层,整个网络也只能等价于一个单层的神经网络。有了激活函数以后,神经网络就能建模非线性模型,能广泛处理复杂的问题。阶跃函数:最早采用的激活函数是阶跃函数,但其光滑性不好,所以实际中用光滑性较好的函数替代。Sigmoid函数:Sigmoid函数具有可微性和单调性,输出值的范围是(0,1),在物理意义上最接近生物神...原创 2020-04-13 18:30:05 · 1082 阅读 · 0 评论 -
【机器学习】生成式神经网络
【生成式模型】【自动编码器】自动编码器是一种无监督(其特点是训练样本数据的标记信息未知,因此其目标往往是要通过对无标签训练样本的学习来揭示出数据的内在规律)的神经网络模型,其目标是通过训练网络忽略信号“噪声”,从而得到数据的低维度表示(编码)。自动编码器的作用:作为特征提取器:中间表示z的维度通常小于输入x的维度,这就使得自动编码器能学习到数据中最重要的特征,学习得到的特征可以在后续...原创 2020-04-13 13:24:27 · 3913 阅读 · 0 评论 -
【机器学习】 递归神经网络
递归神经网络的目的实际上是用句法分析等语法结构找到一个很好的语义组合效果。该模型是通过句法分析器得到的,其主要目的是通过底层节点来计算其父节点的向量表示。在训练的过程中,矩阵L会被视为一种参数,因此会被优化和调整。【MV-RNN】这种方式可以很好地体现相邻节点之间的影响,例如:Cb, Bc,但是其缺点是参数过多,使得效率受到影响。【RNTN】其优点是可以体现相邻节点之间的影响,...原创 2020-04-13 11:55:46 · 566 阅读 · 0 评论 -
【机器学习】 核密度估计(KDE)
核密度估计是在概率论中用来估计未知密度函数的方法,是一种非参数检验方法。对于一个未知的概率密度函数(pdf) p(x), 某一个随机变量x落在区间R的概率为:假设R足够窄,则可以用P来表示p(x)进行平均后的结果。假设有n独立同分布的样本,则这n个样本中,有k个样本落在R内的概率为:期望和方差分别为:当N足够大时,科技近似的将k/N作为p的一个近似值,则有所以有:在上式中,V...原创 2020-04-13 11:20:57 · 3522 阅读 · 0 评论 -
【机器学习】正则化
正则化项是损失函数的附加标准,以确保不会过度拟合。这样做的目的是:权重不应该过大,如果权重太大,特征上小小的变化就会引起预测较大的改变;也不希望给某个特征过大的权重,因为如果它有太大的权重,就会有很大的影响,其他的特征就起不到应有的作用;我们也希望无用的特征其权重为0.正则化项有多种计算方式:L1正则:绝对值求和L2正则:平方和区别在于:平方和权重给予较大值更多的惩罚p-范数:p次方...原创 2020-04-06 18:20:11 · 295 阅读 · 0 评论 -
【机器学习】集成学习
【集成学习】集成学习就是通过构建并整合多棵分类树来完成分类任务。要想获得好的集成树,个体分类树应该“好而不同”,即个体分类树要有一定的准确性,即预测性能不能太差,同时要有多样性,即个体分类树之间要有差异。根据个体分类树的生成方式,目前集成树的产生方法大致可分为两大类:1.个体分类树之间不存在强依赖关系、可同时产生的并行化方法,比如Bagging和随机森林;2.个体分类树之间存在强依赖关系...原创 2020-04-06 17:26:15 · 232 阅读 · 0 评论 -
【机器学习】 分类树
分类树和回归树的区别:分类树被用于预测定性变量(即类别变量)而非定量变量。在回归树中,相应预测值取它所属的叶节点的训练观测的平均相应值;在分类树中,相应预测值取它所属的叶节点的训练观测中最常出现的类别。分类树也采用递归二叉分裂方法。但在分类树中,RSS无法作为二叉分裂的准则,替代指标是分类错误率。分类错误率可以如下定义:此区域的训练观测中非最常见类别所占的比例,其数学表达式为:但分类错误率...原创 2020-04-06 13:41:13 · 696 阅读 · 0 评论 -
【机器学习】 回归树
回归树是决策树(采用“分而治之”的策略处理问题的一种方法)的特例。建模的因变量可以是数值型的,此时利用决策树处理回归问题;建模的因变量也可以是类别型的,此时利用决策树处理分类问题。决策树应用于回归问题时叫回归树,应用于分类问题时称为分类树。【决策树的主要优点】:模型具有可读性预测的速度快将自变量空间划分为J个矩形区域,一般采用一种自上而下、贪婪的方式:递归二叉分裂。自上而下指...原创 2020-04-06 13:00:12 · 743 阅读 · 0 评论 -
【机器学习】 K近邻算法(KNN)
K近邻算法首先给定一个训练数据集,其中的观测类别是给定的。分类时,对新的观测,根据其k个最近邻的训练数据的类别,通过多数表决等方式进行类别预测。因此,k近邻算法不具有显式的学习过程。k近邻的三个基本要素:k的选择:当k=1时,KNN分类器偏差较小但方差很大,决策边界很不规则;当k变大时,方差较低但偏差较大,将得到一个接近线性的决策边界。在实际中,可采用交叉验证的方法选择k的大小。距离度量:...原创 2020-04-06 12:16:04 · 377 阅读 · 0 评论 -
【机器学习】 线性判别分析(LDA)
LDA的主要思想是:使投影后类内方差最小,类间方差最大,如下图所示。我们要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大。为了找到比较好的投影向量,我们需要定义一个对于分类好坏的度量。目标函数可以定义为如下:然而,投影均值之间的距离并不是一个好的度量方式,因为它没有考虑类内的标准差。如下面的例子:解决方法是用...原创 2020-04-06 10:48:30 · 505 阅读 · 0 评论 -
【机器学习】 强化学习
强化学习实际上是找一个从观测到动作的最优映射函数,输入是外界观测,目标是奖励最大化。强化学习的主要特点:学习过程中没有监督信号,只要奖励(reward)其反馈(feedback)是延迟的而非瞬间的强化学习过程与时间序列相关,是一个序贯决策的过程agent采取的动作(action)会影响到它所接受的序列数据强化学习算法分类:model-free RL(不理解环境):不具备环境的先...原创 2020-04-02 18:34:38 · 845 阅读 · 0 评论 -
【机器学习】 循环神经网络
【补充:池化层的作用】降低对微小位置变化的敏感性减少网络参数,提高泛化能力【循环神经网络】为了解决梯度消失的问题,提出了门控单元。参考资料:机器学习-北京理工大学-中国大学mooc...原创 2020-04-02 10:36:18 · 113 阅读 · 0 评论 -
【机器学习】 多层感知机
【单层感知机】但是单层感知机无法解决线性不可分的问题,要想解决线性不可分的问题,需要用多层感知机。【多层感知机】通用近似定理:如果一个多层感知机具有线性输出层和至少一层隐藏层,只要给予其足量的隐层神经元,它可以以任意精度近似任何一个从有限维空间到另一个有限维空间的Borel可测函数。通俗地来讲,多层感知机可以看成是一个万能的函数近似器。多层感知机的学习:超参数:神经元个数、隐藏层个数、...原创 2020-04-01 19:48:39 · 1455 阅读 · 0 评论 -
【机器学习】 概率有向图模型
【贝叶斯网络】【贝叶斯定理】贝叶斯定理可以体现先验概率和后验概率之间的转换。【有向分离】有向分离对应于概率论中的条件独立性,其目的是从图的角度出发寻找节点之间的条件独立性。比如对于下图:xi=a, xj=b则z={e,f}, l=a-e-f-bl中有一个头对头节点e,和一个尾对尾节点f,满足条件2,所以l是关于z的一条阻断路径,a和b被{e,f}有向分离。...原创 2020-04-01 18:00:35 · 792 阅读 · 0 评论 -
【机器学习】 概率无向图模型
【概率图模型】概率图模型是一种用图结构来描述多元随机变量之间条件独立关系的概率模型,简称图模型(GM)。图中每个节点表示一个随机变量或一组随机变量,节点之间的边表示这些变量之间的概率关系。概率图模型分为:有向图模型:使用有向无环图表示变量间的关系无向图模型:使用无向图表示变量间的关系【概率无向图模型】概率无向图模型满足以下几个性质:【因子分解】团:无向图G中任何两个结点均...原创 2020-03-31 19:34:57 · 1804 阅读 · 0 评论 -
【机器学习】 降维
降维是一种对高位特征数据预处理的方法,它是用维数更低的子空间来表示原来高维的特征空间。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。主要有特征选择方法和特征变换方法。特征选择方法:特征选择方法又称属性子集选择或者特征子集选择,对它最简单的理解就是从高维数据中选择出若干最有用的维度进行聚类计算。选择属性子集的过程一般用有监督的方法,如找出与所...原创 2020-03-31 13:30:36 · 243 阅读 · 0 评论 -
【机器学习】 聚类
聚类分析是无监督学习的一种方法,其目标是:使簇内数据之间具有高的相似性,不同簇数据之间具有高的差异性。经典聚类算法分类:划分方法:对于给定的n个对象的数据集D,以及簇的数目k,划分算法将对象组织为k个划分。每个划分代表一个簇,使得“簇内相似性高,簇间相似性低”的划分作为最后的聚类结果,例如Kmeans。层次聚类方法:将数据对象建立一棵聚类树,树的简历策略有自底向上的策略(把小的类别逐渐合并...原创 2020-03-31 13:10:01 · 1795 阅读 · 0 评论 -
【机器学习】相似性度量方法
相似性度量方法:原创 2020-03-30 11:59:03 · 196 阅读 · 0 评论 -
【机器学习】支持向量机(SVM)
支持向量机是一个二分类的方法。所以对于非线性可分的数据,先对其进行升维,将它映射到一个高维度的向量空间中,在这个高维度的向量空间中,这些数据被转换成了线性可分的。这里之所以要将超平面定为1和-1,是因为这是一个标量,通过同时扩大或缩小w和b就能实现单位化。可以构造拉格朗日函数,转化为对偶问题求解。位于超平面H1、H2上的训练样本点成为支持向量。接下来是线性不可分的情况,所谓的线性...原创 2020-03-30 10:38:54 · 612 阅读 · 0 评论 -
【机器学习】主题建模+隐狄利克雷分配模型(LDA)+吉布斯采样
【主题建模】大数据时代,面对海量的数据,如果能知道它的主题是什么,从数据压缩的角度来看,我们可以通过很少量的主题来管理很大亮的文档数据集合,从而实现一个比较简洁的操作和管理文档集合的目的;除此之外,如果我们能得到主题信息的话,我们能够通过主题信息去进一步提升其它领域,比如说,推荐系统、信息检索、分类等。主题:一个词集合上面的概率分布。比如对于“计算机”这个主题来说,它在一个词集合上面的概率分布...原创 2020-03-16 17:41:28 · 952 阅读 · 0 评论 -
【机器学习】期望最大化(EM)算法及其应用
【背景】当拥有缺失数据的时候,可以迭代地做参数估计,例如高斯混合模型(GMM)。如图所示,我们要求对高斯混合模型的参数的最大似然估计。对于每一个数据点,它是由两个均值和方差未知的高斯分布来衡量的,并且该数据点分别以不同的未知的概率服从于这两个高斯分布。我们的目标就是估计每一个高斯分布的参数和每一个数据点以多大的概率服从于该高斯分布。【EM算法的直观解释】对于上面陈述的问题,如果我们知道每...原创 2020-03-15 16:29:17 · 1396 阅读 · 0 评论 -
【机器学习】 机器学习性能度量
【误差】误差指的是模型输出与真值的偏离程度,通常定义一个损失函数来衡量误差的大小。在训练集上产生的误差称为经验误差或者训练误差,反应了模型在训练数据上拟合效果的好坏。模型在未知样本上的误差称为泛化误差,通常将测试误差作为泛化误差的近似值,用于衡量训练好的模型对未知数据的预测能力。【过拟合与欠拟合】过拟合:模型在训练样本中表现的过于优越,导致在验证数据集和测试数据集中表现不佳。欠拟合:模...原创 2020-03-15 12:41:13 · 269 阅读 · 0 评论