机器学习算法
文章平均质量分 94
主要介绍一些典型的机器学习算法和模型细节。
BUAA~冬之恋
Just Do It
展开
-
扩散模型(Diffusion Model)原理与代码解析(二)
我们已经明确了要训练pΘ(Xt−1∣Xt)p_{Θ}(X_{t-1}|X_t)pΘ(Xt−1∣Xt),那要怎么确定目标函数呢?有两个很直接的想法,一个是负对数的最大似然概率,即−logpΘ(X0)-\log p_{Θ}(X_0)−logpΘ(X0),另一个是真实分布与预测分布的交叉熵,即−Eq(X0)logpΘ(X0)-E_{q(X_0)}\log p_{Θ}(X_0)−Eq(X0)logpΘ(X0),然而,类似于VAE,由于我们很难对噪声空间进行积分,因此直接优化−logpΘ(X0转载 2022-12-06 21:18:53 · 1867 阅读 · 0 评论 -
变分推断(Variational Inference)解析
假设在一个贝叶斯模型中,xxx为一组观测变量,zzz为一组隐变量(参数也看做随机变量,包含在zzz中),则推断问题为计算后验概率密度P=(z∣x)P=(z|x)P=(z∣x)。根据贝叶斯公式,有:p(z∣x)=p(x,z)p(x)=p(x,z)∫p(x,z)dzp(z|x)=\frac{p(x,z)}{p(x)}=\frac{p(x,z)}{\int p(x,z)dz}p(z∣x)=p(x)p(x,z)=∫p(x,z)dzp(x,z)但是在实际应用中,可能由于积分没有闭式解,或者是指数级的计算复杂度原创 2022-12-01 20:59:33 · 5333 阅读 · 3 评论 -
深入理解图注意力机制(Graph Attention Network)
参考来源:https://mp.weixin.qq.com/s/Ry8R6FmiAGSq5RBC7UqcAQ1、介绍图神经网络已经成为深度学习领域最炽手可热的方向之一。作为一种代表性的图卷积网络,Graph Attention Network (GAT) 引入了注意力机制来实现更好的邻居聚合。通过学习邻居的权重,GAT 可以实现对邻居的加权聚合。因此,GAT 不仅对于噪音邻居较为鲁棒,注意力机制也赋予了模型一定的可解释性。下图概述了 Graph Attention Network 主要做的事情。针原创 2020-07-16 16:39:07 · 3494 阅读 · 0 评论 -
深度学习常用损失函数总览:基本形式、原理、特点
参考来源:https://mp.weixin.qq.com/s/AQQXO2XfDcE-PP1cD1j_Fw机器学习中的监督学习本质上是给定一系列训练样本 (xi,yi)(x_i,y_i)(xi,yi) ,尝试学习 x→yx\to yx→y 的映射关系,使得给定一个xxx ,即便这个 xxx不在训练样本中,也能够得到尽量接近真实 yyy 的输出y^\hat{y}y^ 。而损失函数(Loss Function)则是这个过程中关键的一个组成部分,用来衡量模型的输出 y^\hat{y}y^ 与真实的原创 2020-07-10 16:41:56 · 1676 阅读 · 0 评论 -
Transformers与图神经网络的关系,我们能从transformer学习到什么?
1、导读这个观点的目的是构建Transformer结构背后的NLP上的直觉,以及与图神经网络的联系。图深度学习”听起来很厉害,但有什么大的商业成功的故事吗?它有没有被部署在实际app中?除了Pinterest、阿里巴巴和Twitter的推荐系统外,一个非常小的成功就是Transformer结构,这个结构带来了NLP的风暴。通过这篇文章,我想在Graph Neural Networks (GNNs)和transformer之间建立联系。我会讨论NLP和GNN社区中,模型架构背后的直觉,使用方程和图把这原创 2020-06-29 18:03:46 · 3905 阅读 · 3 评论 -
数据不平衡问题及解决方案
1.数据不平衡1.1 数据不平衡介绍数据不平衡,又称样本比例失衡。对于二分类问题,在正常情况下,正负样本的比例应该是较为接近的,很多现有的分类模型也正是基于这一假设。但是在某些特定的场景下,正负样本的比例却可能相差悬殊,如社交网络中的大V判断、电商领域的恶意差评检测、金融领域的欺诈用户判断、风控领域的异常行为检测、医疗领域的肿瘤诊断1.2 数据不平衡的常见形式及特点根据数据量的多少和数据不平衡程度,可以将数据不平衡问题分为以几类:(1)大数据+轻微数据不平衡(正负样本数量相差在一个数量级内)如豆原创 2020-06-11 22:44:13 · 2909 阅读 · 0 评论 -
lgb,xgb,gbdt,adb,RF区别与联系
AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值,初始的时候,大家都是一样重要的。在每一步训练中得到的模型,会使得数据点的估计有对有错,我们就在每一步结束后,增加分错的点的权重,减少分对的点的权重,这样使得某些点如果老是被分错,那么就会被“重点关注”,也就被赋上一个很高的权重。然后等进行了N次迭代(由用户指定),将会得到N个简单的分类器(basic learner),然后我们将它们组合起来(比如说可以对它们进行加权、或者让它们进行投票等),得到一个最终的模型。原创 2020-06-11 18:26:48 · 2139 阅读 · 0 评论 -
【短文本相似度】传统方法BM25解决短文本相似度问题
之前介绍过TF-IDF计算短文本相似度,见:传统方法TF-IDF解决短文本相似度问题,想着就把这一系列都介绍完吧,也算是自己的归纳总结,今天就介绍一下如何使用BM25算法计算短文本相似度。上一篇短文本相似度算法研究文章中,我们举过这样一个场景,在问答系统任务(问答机器人)中,我们往往会人为地配置一些常用并且描述清晰的问题及其对应的回答,我们将这些配置好的问题称之为“标准问”。当用户进行提问时,...原创 2020-03-23 10:31:12 · 1166 阅读 · 4 评论 -
各种一维卷积(Full卷积、Same卷积、Valid卷积、带深度的一维卷积)
一维卷积通常有三种类型:full卷积、same卷积和valid卷积,下面以一个长度为5的一维张量I和长度为3的一维张量K(卷积核)为例,介绍这三种卷积的计算过程。一维Full卷积Full卷积的计算过程是:K沿着I顺序移动,每移动到一个固定位置,对应位置的值相乘再求和,计算过程如下:将得到的值依次存入一维张量CfullC_{full}Cfull,该张量就是I和卷积核K的full卷积结果,...原创 2020-03-18 16:43:33 · 7168 阅读 · 1 评论 -
【TF-IDF】传统方法TF-IDF解决短文本相似度问题
一般的研究短文本相似度的方法基本上都是基于词向量生成句子向量的方法。今天在这里就介绍一下传统算法TF-IDF是如何计算短文本相似度的。TF-IDF是英文Term Frequency–Inverse Document Frequency的缩写,中文叫做词频-逆文档频率。那么,TF-IDF是怎么产生的?又是从何而来呢?在一个文本中,当一个词汇出现很多次时,我们往往认为这个词是重要的,可以代表该文...原创 2020-03-17 17:34:33 · 779 阅读 · 0 评论 -
(代码)使用预训练的词向量进行文本分类
import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrixfrom k...原创 2020-03-12 10:54:53 · 1345 阅读 · 0 评论 -
深入理解Transformer及其源码
https://www.cnblogs.com/zingp/p/11696111.html转载 2020-03-12 10:39:28 · 238 阅读 · 0 评论 -
Transformer详解
Transformer 什么是transformer 为什么需要用transformer encoder sub-encoder block multi-head self-attention FFN input ...原创 2020-03-11 17:15:35 · 1097 阅读 · 0 评论 -
Transformer详解
Transformer 什么是transformer 为什么需要用transformer encoder sub-encoder block multi-head self-attention FFN input ...原创 2020-03-11 17:07:58 · 2215 阅读 · 0 评论 -
完全图解RNN、RNN变体、Seq2Seq、Attention机制
本文主要是利用图片的形式,详细地介绍了经典的RNN、RNN几个重要变体,以及Seq2Seq模型、Attention机制。希望这篇文章能够提供一个全新的视角,帮助初学者更好地入门。1、 从单层网络谈起在学习RNN之前,首先要了解一下最基本的单层网络,它的结构如图:输入是x,经过变换Wx+b和激活函数f得到输出y。相信大家对这个已经非常熟悉了。2、经典的RN...原创 2020-03-11 15:49:26 · 2914 阅读 · 1 评论 -
梯度下降法的三种形式BGD、SGD以及MBGD
阅读目录 1. 批量梯度下降法BGD 2. 随机梯度下降法SGD 3. 小批量梯度下降法MBGD 4. 总结 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。下面我们以线性回归算法来对三种梯度下降法进行比较。一般线性回归函数的假设函数为:对应的能...原创 2020-03-11 15:28:22 · 399 阅读 · 0 评论 -
NLP之---word2vec算法skip-gram原理详解
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/weixin_41843918/article/details/90312339...转载 2020-03-11 14:57:31 · 200 阅读 · 0 评论 -
【GCN】从文本分类来看图卷积神经网络
01—“图神经网络”是什么过去几年,神经网络在机器学习领域大行其道。比如说卷积神经网络(CNN)在图像识别领域的成功以及循环神经网络(LSTM)在文本识别领域的成功。对于图像来说,计算机将其量化为多维矩阵;对于文本来说,通过词嵌入(word embedding)的方法也可以将文档句子量化为规则的矩阵表示。以神经网络为代表的深度学习技术在这些规范化的数据上应用的比较成功。但是...原创 2020-03-11 12:02:04 · 8078 阅读 · 0 评论 -
【Word2Vec】word2vec是如何得到词向量的?
前言word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料库你需要增加分词处理。这个过程其他的答案已经梳理过了不再赘述。得到你想要的processed corpus之后,将他们的one-hot向量作为word2...原创 2020-03-11 13:56:04 · 386 阅读 · 0 评论