菜小白—NLP-CSDN博客

原创 Sampled softmax模型：On Using Very Large Target Vocabulary for Neural Machine Translation

参考链接论文链接：https://arxiv.org/abs/1412.2007参考连接：https://blog.csdn.net/wangpeng138375/article/details/75151064一、神经机器翻译神经机器翻译一般使用encoder–decoderencoder–decoderencoder–decoder神经网络实现decoderdecoderdec...

2020-03-04 17:04:30 341

原创蒙特卡洛积分和重要性采样(Importance Sampling)

一、蒙特卡洛积分蒙特卡洛积分概述：简而言之蒙特卡洛积分就是，在求定积分时，如果找不到被积函数的原函数，无法使用经典牛顿-莱布尼茨积分法得到定积分结果的。而蒙特卡洛积分方法利用一个随机变量对被积函数进行采样，并将采样值进行一定的处理可以得到定积分的一个近似值，当采样数量很高时，得到的近似值可以很好的近似原积分的结果。这样一来，我们就不用去求原函数的形式，就能求得积分的近似结果。补充一些基...

2020-03-04 10:21:08 5767 1

原创随机采样方法与python实现

一、什么是采样在信号系统和数字信号处理中，采样是每隔一定的时间测量一次声音信号的幅值，把时间连续的模拟信号转换成时间离散幅值的采样信号。如果采样的时间间隔相等，这种采样称为均匀采样。在计算机系统中有一个重要的问题叫随机采样：就是给定一个概率分布p(x)p(x)p(x),我们如何按照该分布产生样本在机器学习或统计学习中,我们是给定一堆样本数据,通过参数估计的方法求出这堆样本所符合的概率分布...

2020-02-29 23:38:18 3666

原创 Transformer核心源码阅读笔记

一.参考链接Transformer理论解读：https://blog.csdn.net/ACM_hades/article/details/88898313代码参考连接：https://github.com/graykode/nlp-tutorial二.代码import numpy as npimport torchimport torch.nn as nnimport torc...

2020-02-17 18:56:58 525 2

原创二分图匹配问题(模板)

问题描述：有N台计算机和K个任务；可以给每台机器分配一个任务，每条机器能处理的任务种类各不相同；求最多可能处理多少个任务。其中uuu表示机器；vvv表示任务。...

2020-02-15 14:55:35 549

原创最大流问题(模板)

一、问题描述在下图的网络中，有一个源点机器sss有一个汇点机器ttt，边的权值表示电缆的传输速度。我们的目标使求解源点sss到汇点ttt的最大流量。二、解题思路贪心算法:看到这个问题；我们最简单的第一反应就是使用DFS的贪心算法；算法步骤：第一步：使用DFS搜索一条从源点sss到汇点ttt的可以增流的路径(即路径中边的容量c(e)>f(e)c(e)>f(e)c(e)&g...

2020-02-14 21:58:38 566

原创 XLNet模型: Generalized Autoregressive Pretraining for Language Understanding

链接论文链接：https://arxiv.org/pdf/1906.08237v1项目链接：https://github.com/zihangdai/xlnetTransformer-XL模型：https://blog.csdn.net/ACM_hadesTransformer模型：https://blog.csdn.net/ACM_hades一、背景知识1.AR语言模型：假设...

2019-07-03 14:47:47 589

原创 Character-Level Language Modeling with Deeper Self-Attention

链接论文链接：https://arxiv.org/pdf/1808.04444v2.pdf项目链接：https://github.com/nadavbh12/Character一、前言论文中展示了一个具有固定上下文长度的比较深的transformer模型(64-layer),该模型大大优于各种RNN模型的变体，并且在两个流行的基准测试中达到了最优水平。在实验中发现在中间网络层和中间...

2019-06-26 15:47:22 1172 1

原创 GloVe模型: Global Vectors for Word Representation

一、前言目前学习词向量的方法主流的有两种：全局矩阵分解的方法：比如LSA，HAL，这类方法首先统计语料库中的“词-文档”或者“词-词”共现矩阵，然后通过矩阵分解的方法来获得一个低维词向量。局部上下文窗口的方法，：比如skip-gram但是这两种方法都有缺点：全局矩阵分解的方法虽然利用了全局统计信息，但是他会过度重视共现词频高的单词对，然而这些词并没有多大的语义联系。局部上...

2019-06-24 18:26:20 485

原创【机器学习】贝叶斯参数估计法

一、贝叶斯参数估计前导篇：【机器学习】最大似然估计与最大后验估计这里先回顾一下最大后验估计法：最大后验估计法，通过最大化参数θθθ的后验分布来求出估计参数θ^\hat{θ}θ^ :θ^=argmax⁡θ⁡P(θ∣x)=argmax⁡θ⁡P(x∣θ)∗P(θ)\hat{θ}=arg\max_θ⁡P(θ|x)=arg\max_θ⁡P(x|θ)*P(θ)θ^=argθmax⁡P(θ∣x...

2019-06-17 18:10:04 3838

一、一些概率公式联合概率：假设有随机变量AAA和BBB，此时P(A=a,B=b)P(A=a,B=b)P(A=a,B=b)用于表示A=aA=aA=a且B=bB=bB=b同时发生的概率。这类包含多个条件且所有条件同时成立的概率称为联合概率。边缘概率：P(A=a)P(A=a)P(A=a)或P(B=b)P(B=b)P(B=b)这类仅与单个随机变量有关的概率称为边缘概率:P(A=a)=∑bP(A=a,...

2019-06-14 17:17:00 512

原创【深度学习】后向传播(BP)算法

一、神经网络学习算法的本质当我们搭建好一个神经网络后，无论在什么应用场合，我们的目标都是：将网络的权值和偏置都变成一个最好的值，这个值可以让我们的输入得到理想的输出。可能大家会觉的神经网络架构很非常神秘和复杂，其实任何一个神经网络架构都是一个多层复合的复合函数，我们可以将它们表示为：f(x,w,b)f(x,w,b)f(x,w,b),其中x是输入，www是权值，bbb为偏置。我们的目标就变成...

2019-06-06 19:55:41 6489 1

原创【机器学习】密度聚类算法之HDBSCAN

链接前导篇：【机器学习】聚类算法之密度聚类(DBSCAN)前导篇：【机器学习】密度聚类算法之OPTICS参考链接：https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.htmlHDBSCAN API 使用参考链接：https://hdbscan.readthedocs.io/en/latest/api.html一、概述...

2019-06-05 17:58:16 11232 8

原创【统计学习方法】支持向量机之非线性支持向量机

前篇：【统计学习方法】支持向量机之线性支持向量机一、核技巧非线性分类问题：下图是一个非线性分类问题：由图可见，无法用直线(线性模型)将正负实例正确分开，但可以用一条椭圆曲线(非线性模型)将它们正确分开.对给定的一个训练数据集T=(x1，y1),(x2，y2),…,(xN，yN)T={(x_1，y_1 ),(x_2，y_2 ),…,(x_N，y_N )}T=(x1，y1),(x2，y...

2019-05-31 14:41:49 688

原创【统计学习方法】支持向量机之线性支持向量机

前篇：【统计学习方法】支持向量机之线性可分支持向量机一、线性支持向量机假设给定一个特征空间上的训练数据集：T=(x1，y1),(x2，y2),…,(xN，yN)T={(x_1，y_1 ),(x_2，y_2 ),…,(x_N，y_N )}T=(x1，y1),(x2，y2),…,(xN，yN)其中，xi∈X∈Rn，yi∈−1,+1x_i∈X∈R^n，y_i∈{-1,+1}xi∈X∈...

2019-05-31 11:42:59 302

原创【统计学习方法】支持向量机之线性可分支持向量机

一、线性可分支持向量机这里我们先考虑一个二类分类问题，假设给定一个特征空间上的训练数据集：T=(x1，y1),(x2，y2),…,(xN，yN)T={(x_1，y_1 ),(x_2，y_2 ),…,(x_N，y_N )}T=(x1，y1),(x2，y2),…,(xN，yN)其中，xi∈X∈Rn，yi∈−1,+1x_i∈X∈R^n，y_i∈{-1,+1}xi∈X∈Rn，yi∈−1...

2019-05-31 10:37:58 872

原创【统计学习方法】支持向量机之序列最小最优化(SMO)算法

一、序列最小最优化算法序列最小最优化(SMO)算法是用来解SVM的对偶问题(凸二次规划)的算法：min⁡α⁡(12∑i=1N∑j=1NαiαjyiyjK(xi,xj)−∑i=1Nαi)\min_α⁡(\frac{1}{2}∑_{i=1}^N∑_{j=1}^N α_i α_j y_i y_j K(x_i ,x_j)-∑_{i=1}^Nα_i )αmin⁡(21i=1∑Nj=1∑Nαi...

2019-05-30 17:12:39 562

原创【优化】拉格朗日对偶性

一、原始问题问题描述:min⁡x⁡f(x)\min_x⁡f(x)xmin⁡f(x)s.t.hi(x)=0,i=1,2…,mgj(x)≤0,j=1,2….,ns.t. \quad h_i (x)=0,i=1,2…,m\\g_j (x)≤0,j=1,2….,ns.t.hi(x)=0,i=1,2…,mgj(x)≤0,j=1,2….,n其中x∈R^d.引入拉格朗日乘子λ=(λ1,λ2,...

2019-05-28 17:54:41 353

原创【优化】拉格朗日乘子法与KKT条件

一、无约束优化问题首先考虑一个不带任何约束的优化问题：min⁡x⁡f(x)\min_x⁡f(x)xmin⁡f(x) 其中x∈Rdx∈R^dx∈Rd根据Fermat定理，直接求解梯度等于0的方程：∇xf(x)=0∇_xf(x)=0∇xf(x)=0这个方程的解叫做函数f(x)f(x)f(x)的无条件极值，可能有多个，最小的就是f(x)f(x)f(x)的最小值。下面的推导中，我们把上面方程...

2019-05-28 16:54:28 417

原创 SVM的核技术与希尔伯特空间

一、些基本定义线性性：所谓的线性性就是加分和数乘。距离：距离的定义必须满足如下三个条件：非负性：d(x,y)≥0,x=yd(x,y)≥0,x=yd(x,y)≥0,x=y时等号成立。对称性：d(x,y)=d(y,x)d(x,y)=d(y,x)d(x,y)=d(y,x)三角不等式：d(x,y)+d(y,z)≥d(x,z)d(x,y)+d(y,z)≥d(x,z)d(x,y)+d(y,z)≥...

2019-05-25 12:53:58 1075

原创 Bidirectional LSTM-CRF Models for Sequence Tagging

参考链接参考论文:https://arxiv.org/pdf/1508.01991v1.pdf代码:https://github.com/GlassyWing/bi-lstm-crf概述这篇论文主要讲的是：基于LSTM的序列标注模型(sequence tagging model)主要介绍：BI-LSTM-CRF模型BI-LSTM-CRF模型的优点：A. 可以有效的使用输入前后的特...

2019-04-25 17:12:58 1603

原创 BERT模型: Pre-training of Deep Bidirectional Transformers for Language Understanding

参考链接论文链接:https://arxiv.org/pdf/1810.04805v1.pdf代码链接:https://github.com/google-research/bert参考博客https://arxiv.org/pdf/1810.04805v1.pdf模型架构模型图BERT模型架构是：一个多层的双向的Transformer的encoder。Encoder如下图所示：L表...

2019-04-18 11:28:37 728

原创 Transformer-XL模型：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

参考链接参考论文:https://arxiv.org/abs/1901.02860参考博客:https://ai.googleblog.com/2019/01/transformer-xl-unleashing-potential摘要Transformer网络具有学习更长期依赖性的潜力，但这种潜力往往会受到上下文长度固定的限制。因此，我们提出了一种叫做 Transformer-XL 的...

2019-04-15 14:04:16 1344

原创 01背包问题——大背包：

题目描述：有n个物品，每个物品有两个属性：一个是体积wiw_iwi,一个是价值v1v_1v1，可以表示为：{(w1,v1),(w1,v1),…,(w1,vn)}\{(w_1,v_1 ),(w_1,v_1 ),…,(w_1,v_n )\}{(w1,v1),(w1,v1),…,(w1,vn)}。同时我们还有一背包，背包的容量用W表示。现在我们将物品放入背包，放入的物品体积的总和不得...

2019-04-11 16:10:16 4212

原创完全背包问题

题目描述：有n种体积和价值分别为wi,viw_i,v_iwi,vi的物品。有一个容量为W(体积)的背包。求出背包能装下的最大价值，每种物品的数量是无限的。解题思路：- 动态规划法：dp数组含义：dp[i][j]dp[i][j]dp[i][j]=从编号为1−i1-i1−i的物品中挑选物品放入容量为jjj的背包中能得到的最大价值。注意：n种物品编号范围为1-n，0做作递推的起点。...

2019-04-10 18:22:48 11028 4

原创 ELMo：Deep contextualized word representations

参考链接论文链接：https://arxiv.org/pdf/1802.05365v2.pdf代码链接：https://github.com/allenai/bilm-tf一、模型架构:ELMo: Embeddings from Language Models与最广泛使用的词嵌入不同，ELMo词嵌入是整个输入句子的函数。这个函数就像是一个神经网络内部状态的线性函数，该网络是一个带有字符卷...

2019-04-03 15:07:56 523

原创 Semi-Supervised Sequence Modeling with Cross-View Training

参考链接论文链接：https://arxiv.org/abs/1809.08370 代码链接：https://github.com/tensorflow/models/tree/master/research/cvt_text一、概述：注意：下面所说的 “表示” 可以简单理解为embeding(词向量)无监督表示(representation learning)学习算法（如 w...

2019-04-02 19:41:06 1393

原创 GPT模型：Improving Language Understanding by Generative Pre-Training

参考链接https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdfhttps://github.com/openai/finetune-transformer-lm论文模型概述论文模型训练过程包括两步：第一步: 在大预料库训练高容量的语言模型；第二步: 要特殊任务的有标签的数据集上微调预训练的语言模...

2019-03-29 18:24:20 3878

原创 Transformer：Attention Is All You Need

一.参考链接https://arxiv.org/abs/1706.03762https://github.com/Kyubyong/transformerhttp://jalammar.github.io/illustrated-transformer二.概述模型的整体架构图：将Transform剥离出来其编码器部件，解码器部件及其它们的链接如下图：编码部件(encoding comp...

2019-03-29 17:34:04 580

原创正则化：Normalization

参考论文Batch NormalizationLayer Normalization 白化：独立同分布数据：机器学习界最喜欢的数据莫过于独立同分布数据. 独立同分布并非所有机器学习模型的必然要求,比如Naïve Bayes模型就建立在特征彼此独立的基础之上，而逻辑回归和神经网络中则在非独立的特征数据上依然可以训练出很好的模型，但独立同分布的数据可以简化常规机器学习模型的训练、提升机器学...

2019-03-26 19:42:34 524

原创 Document-Level Relation Extraction：SSAN模型

参考链接论文链接：Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction代码链接：https://github.com/BenfengXu/SSANIntroduction 首先通过一个例子来简单阐述一下Document-Level Relation Extraction：红色的线：表示共指关系；蓝色的线：表示句内关系，通过句内局部

2021-05-16 17:16:19 942

原创对比学习：MoCo :Momentum Contrast for Unsupervised Visual Representation Learning

参考链接论文链接：https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1911.05722代码链接：https://github.com/facebookresearch/mocoIntroduction 无监督的表示学习再NLP领域已经取得了巨大的成功，比如：bert预训练模型；但是再CV领域，监督的表示学习还是比无监督的表示学习要好。这主要的原因是什么呢？论文认为：主要的原因是NLP和CV的信号空间不一样NLP是基于字典的离散的

2021-03-30 10:23:12 1189

原创 CapsNet模型：Dynamic Routing Between Capsules

1.CNN模型的缺陷CNN主要用于捕捉图形的局部特征，但是在探索这些特征之间的关系似乎不是特别好（比如相对位置关系、相对大小关系，特征的方向等等关系）如下面两幅图，由于局部特征相同，所以CNN可能将它们都识别成一张人脸：一个简单的CNN模型可以正确地提取鼻子，眼睛和嘴巴的特征，但是并不能提取出特征之间的相对关系：CapsNet模型就是为解决CNN这个缺陷而产生的。2.Capsules网络的概念在一般的神经网络中，一层一般由若干神经元组成，每个神经元对应一个常数(或者叫常数的输出和输出)。

2020-06-19 16:40:50 592

原创马尔可夫决策过程(MDP)

一、强化学习引入强化学习的一个经典简化图：在上图中Agent首先观察获取当前环境的状态StS_tSt,然后根据StS_tSt采取一个行动AtA_tAt与环境进行交互，在动作AtA_tAt作用下环境的状态由StS_tSt转变为St+1S_{t+1}St+1,同时环境会给出立即给Agent一个回报RtR_tRt。如此循环下去，Agent与环境进行不断地交互从而产生很多数据。强化学习...

2020-04-18 22:32:01 1425

原创 BERT核心源码阅读笔记

一.参考链接BERT理论解读：https://blog.csdn.net/ACM_hades/article/details/89375058代码参考连接：https://github.com/graykode/nlp-tutorial二.代码import mathimport refrom random import *import numpy as npimport tor...

2020-04-14 21:05:06 463 1

原创知识图谱简述：

一、知识图谱的定义：知识图谱：知识图谱本质上是语义网络（Semantic Network）的知识库。可以简单地把知识图谱理解成多关系图（Multi-relational Graph）。多关系图一般包含多种类型的节点和多种类型的边。在知识图谱里，节点：我们通常表示一个实体（Entity）；实体指的是现实世界中的事物比如人、地名、概念、药物、公司等边：表示实体间的一种关系（Relati...

2020-04-10 21:51:48 1018

原创 FastText模型：Enriching Word Vectors with Subword Information

参考链接论文链接：Enriching Word Vectors with Subword InformationFastText模型FastText模型是在skip-gram模型基础上提出来的，所有首需要回顾一下skip-gram模型，可以参考连接： skip-gram模型skip-gram模型图：在skip-gram模型中对词汇表中每个词www都对应着两个向量：输人向量uwu...

2020-04-02 00:12:11 1295

原创常见损失函数总结

常见损失函数损失函数：用来评价模型的预测值和真实值不一致的程度，损失函数越好，通常模型的性能越好。不同的模型用的损失函数一般也不一样。0-1损失函数(zero-one loss)公式：L(Y,f(X))={1Y=f(X)0Y≠f(X)L(Y,f(X))= \begin{cases} 1 & Y=f(X) \\ 0 & Y≠f(X)\end{cases} L(Y,f(X...

2020-03-29 00:06:02 1443

原创深度学习优化器总结

深度学习优化器神经网络模型的学习方法(优化器)一般使用梯度下降算法：令网络模型的损失函数为：J(θ)J(θ)J(θ)；其中θθθ是整个模型需要学习的参数。然后将参数θθθ向负梯度方向更新：θt=θt−1−η∇J(θ)θ_t=θ_{t-1}-η∇J(θ)θt=θt−1−η∇J(θ); ηηη为学习率表明梯度更新的步伐大小可以看出深度学习优化器的两个核心：梯度与学习率，前者决定...

2020-03-27 11:21:07 439

原创激活函数总结

激活函数的作用没有激活函数带来的非线性，多层神经网络和单层无异，只能拟合一般的线性函数。为了使得神经网可以拟合复杂的函数需要向神经网络加入非线性激活函数，它可以使神经网络随意逼近复杂函数。神经元∑inwixi+b∑_i^nw_i x_i+b∑inwixi+b的输出值可能非常大, 该输出在未经修改的情况下传送至下一层神经元时，可能被转换成更大的值，这样可能需要极大算力。激活函数的一个任务...

2020-03-24 22:01:43 347

空空如也

空空如也