自然语言处理
文章平均质量分 88
Fang Suk
久居深巷、独忆易人
展开
-
Transformer
Transformer引言:(补充)用于机器翻译的transformer结构如下,由编码器组件和解码器组件构成。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nHN4LNRR-1624956718031)(C:\Users\sfang.fangsh\AppData\Roaming\Typora\typora-user-images\image-20200616171932170.png)]如上图,编码器组件有一系列编码器堆砌组成,解码器组件也是由一系列的解码器堆砌组成原创 2021-06-29 16:52:07 · 138 阅读 · 0 评论 -
中文NER方法总结
中文NER方法总结 中文命名实体识别主要有四大主流算法,序列标注,指针网络,多头标注,片段排列。1. 四大抽取算法1.1 序列标注 最简单的softmax+CE的方法,是一种token级别的分类任务。这种方法最简单,但没有考虑到标签之间的关系。仅仅在特征提取时,上后文是有联系的,每个时刻分类时,互不相关,这样就会出现很不合理的预测,如BB等。在每一个位置使用softmax进行2C+12C+12C+1分类(如果使用BIO标注格式的话,C为类别总数)。 基于CRF的模型在softmax原创 2021-05-27 19:47:10 · 582 阅读 · 0 评论 -
ELECTRA:Pre-training Text Encoders as discriminators Rather than Generators
摘要: Masked language model(MLM)预训练任务(如bert)通过使用[MASK]标记随机替换token来破坏输入(corrupted input)。虽然这种做法在下游任务可以得到较好的结果。但是只在大规模计算的前提下是有效的。本文提出了一种更加高效的预训练任务称为Replaced token detection。它不是使用[mask]随机替换,而是使用一个生成器以更加合理的方式去随机替换token来破坏输入。之后,不是去预测被破坏输入的原始标记,而是训练一个判别器,去预测被破坏输原创 2021-05-17 18:02:01 · 362 阅读 · 0 评论 -
Pytorch中分类loss总结
Pytorch中分类loss总结近期在学习pytorch时,发现分类算法在输出时不写激活层如softmax激活/sigmoid激活。并且pytorch文档中除了softmax激活/sigmoid激活外,还有logsoftmax/logsigmoid。以及torch的loss函数会把激活和损失计算都整合到一起计算,给的解释是为了获得更好的数值稳定性。为了弄清这一切,进行了以下探索。并将自己涉及的相关不清楚的部分进行了补充(可跳过)。一分类的loss函数理论上来说,可以用来衡量误差并且可微风的函数都原创 2021-05-17 17:09:27 · 2822 阅读 · 0 评论 -
对抗训练
文章目录1、定义2、对抗训练:从CV到NLP2.1 CV中的数据格式2.2 NLP中数据格式3、对抗样本与数据增强样本4 如何确定微小扰动4.1 Fast Gradient Sign Method(FGSM)4.2 Fast Gradient Method(FGM)4.3 Projected Gradient Descent(PGD)5 实验结果6 实现6.1 pytorch实现[2]6.2 keras实现[3]1、定义对抗样本:对输入增加微小扰动得到的样本。旨在增加模型损失。对抗训练:训练模型去区分原创 2021-05-17 16:05:17 · 9222 阅读 · 4 评论 -
长尾分布下的分类问题
长尾分布下的分类问题 基于深度学习的分类算法应用于长尾分布数据集时,识别效果不好。对尾部类别的学习效果很差。为解决长尾分类下的识别问题,有多种不同思想的优化方法。最简单的方法是重采样(re-sampling)和重加权(re-weighting)。一些最新研究方法包括知识迁移和解耦特征和分类器。重采样(re-sampling) 重采样的具体做法包括对头部类别样本的欠采样和对尾部类别样本的过采样。但过采样容易在尾部类别过拟合。 重采样一般会选择过采样的方式,欠采样会丢失过多的头部类别信息,原创 2021-05-14 20:34:22 · 3113 阅读 · 0 评论 -
Seesaw Loss总结
Seesaw Loss总结1、简介seesaw loss是为了解决长尾问题提出的损失函数,文章认为尾部类别的正负样本梯度不均衡时影响长尾检测性能的关键因素之一。seesaw loss可以针对性调整任意类别上的负样本梯度。由于尾部类别的正负样本不均衡,导致了尾部正负样本梯度不均衡,从而影响了检测器的性能。画一下长尾梯度。2、定义seesaw loss的数学表达如下:Lseesaw(z)=−∑i=1Cyilog(σ^),with σ^=ezi∑j≠icSijezj+eeiL_{seesaw}(z原创 2021-05-14 20:19:13 · 2147 阅读 · 7 评论 -
pytorch的数据读取
pytorch的数据读取pytorch数据读取的核心是torch.utils.data.DataLoader类,具有以下特性:支持map-style datasets和iterable-style datasets自定义数据读取顺序自动批量化单线程/多线程读取自动内存锁页1. 整体流程DataLoader的参数如下,主要涉及DataSet、sample、collate_fn、pin_memory。DataLoader(dataset, batch_size=1, shuffle=Fal原创 2021-05-14 20:16:31 · 2661 阅读 · 3 评论 -
NLP复习总结
NLP复习总结1. 词嵌入word2vecword2vec核心要点:1.两个重要模型:CBOW(continuous Bag-of-words Model)、skip-gram模型。投影层不使用激活函数2.两个高效优化技巧:Hierarchical softmax、Negativa sampling。负采样顾名思义就是对负样本就行采样,需要一个概率分布,使用词频的(3/4)此幂。3.其他技巧:二次采样、短语学习二次采样:滑动窗口生成样本时,减少对高频词的采样(如:的,得)。p(wi)=m原创 2021-05-14 20:14:13 · 242 阅读 · 0 评论 -
Meachine Leaning
Meachine Leaning决策树决策树可以看作时if-then规则的集合,还可以看作给定特征条件下类的条件概率分布。决策树学习包括三个步骤:特征选择,决策树生成,决策树剪枝。决策树损失函数时正则化的极大似然函数,该损失函数下选择最优决策树是NP完全问题。通常采用启发时方法近似求解。决策树生成算法:ID3:使用信息增益作为特征选择方法G(D,A)=H(D)−H(D∣A)G(D,A)=H(D)-H(D|A)G(D,A)=H(D)−H(D∣A)C4.5:使用信息增益原创 2021-05-14 20:13:39 · 210 阅读 · 0 评论 -
EM算法简介
EM算法简介1 使用场景EM算法(expectation maximization algorithm)用于含有隐变量概率模型参数的极大似然估计。在不含有隐变量(未观测变量)的概率模型参数估计,最常用的就是极大似然估计。在含有未观测变量时,一般使用EM算法。2 目标EM算法还是要极大化观测数据(不完全数据)的对数似然函数。假设有m个观测样本(y1,z1),(y2,z2),...,(ym,zm)(y_1,z_1),(y_2,z_2),...,(y_m,z_m)(y1,z1),(y2,z2),.原创 2021-05-14 20:13:08 · 302 阅读 · 0 评论 -
Decoupling Representation and Classifier for Lont-Tailed Recognition
Decoupling Representation and Classifier for Lont-Tailed Recognition 长尾问题是基于深度学习分类模型的一大难点。现有的解决方案包括损失加权,数据重采样,头部类别到尾部类别的迁移学习。大多数方案都将表示和分类器联合学习。本文将学习过程分解成表示学习和分类。系统的探索了上述方法是怎么影响这两个部分,以获得在长尾分布上更好的表示。发现两个结果:(1)在学习高质量的文本表示时,数据不均衡不是一个问题。(即使数据不均衡,也能学习到高质量的文本原创 2021-05-14 20:11:05 · 687 阅读 · 0 评论 -
Batch Normalization,Layer Normalization,Weight Normalization
Batch Normalization,Layer Normalization,Weight Normalization1 Interral Covariate Shift在深度神经网络的训练过程中,每次优化,低层的参数变化,一方面,随着层数加深,这些变化会被放大,另一方面。底层参数变化会导致高层的输入分布变化,上层网络需要不断的适应这些变化,导致训练困难,这一现象叫做Interal Covariate Shift。1.1 什么是Interal Covariate ShiftInteral Cova原创 2021-05-14 19:59:56 · 252 阅读 · 0 评论 -
TF-IDF
词频是衡量词是否重要的一种方法。可用于文本特征表示中,根据词频为词赋不同权重。有以下常用词频:TF(term frequency)绝对词频。IDF(Inverse Document Frequency,IDF)逆文本频率。布尔词频:用0,1区分某词是否出现,无法区分重要程度。绝对词频(term frequency,TF):用词出现的频率表示重要程度。TF-IDF:绝对词频-逆文本频率:在绝对词频的基础上,对常用词进行惩罚。1. TF绝对词频TF=该条样本某词出现总词数该条样本总词数TF=\f原创 2021-01-07 13:36:46 · 445 阅读 · 1 评论 -
RNN,LSTM,GRU计算方式及优缺点
本文主要参考李宏毅老师的视频介绍RNN相关知识,主要包括两个部分:分别介绍Navie RNN,LSTM,GRU的结构对比这三者的优缺点1.RNN,LSTM,GRU结构及计算方式1.1 Navie RNN结构图:计算公式:ht=σ(Whht−1+Wxxt)yt=σ(Wyht)h^t=\sigma(W^hh^{t-1}+W^xx^t)\\y^t=\sigma(W^yh^t)ht=σ(Whht−1+Wxxt)yt=σ(Wyht)依赖每一个时刻的隐状态产生当前的输出,具体计算方式根据自己任原创 2020-06-21 15:44:43 · 15896 阅读 · 0 评论 -
NLP中的Attention总结
Attention是模拟人脑的注意力机制。人在看到一些东西,往往只关注重要的信息,而忽略其他信息。自然语言处理中的attention是对文本分配注意力权重,Attention的本质就是从关注全部变为关注重点。1 Attention的原理Attention的计算过程:query和key向量进行相似度计算,得到权重。将得到的权值进行归一化,得到每个key的归一化权重。根据权重,对value进行加权求和。2 Attention的类型如上图,按不同的方式,可将attention分为不同类型。转载 2020-06-16 11:36:17 · 1019 阅读 · 0 评论 -
NLP算法工程师
本文主要针对NLP算法工程师,构建NLPer面试所需知识的思维导图;只涉及对付面试的知识。主要包括以下三大部分的知识:统计机器学习,深度学习(NLP方向),算法与数据结构。本文的主要目的:只构建整体知识的框架(面),不涉及算法细节。各算法的细节会在相应算法学习文档详细介绍。本章构建的知识框架便于对整体知识进行回顾。1 统计机器学习1.1 基础算法主要包括六大机器学习算法:感知机,KNN,朴树贝叶斯,决策树,LR,SVM。线性模型(感知机,LR,贝叶斯)树模型(ID3,C4.5,CART)SV原创 2020-06-08 20:34:27 · 3393 阅读 · 0 评论 -
Seq2Seq模型中的label bias和exposure bias问题
从序列到序列的seq2seq模型中,存在着label bias和exposure bias问题。这两个偏差问题是由于不同的原因导致的。先给出结论在分别解释label bias:根本原因是我们真实的目标与建模的目标不一致,导致模型最终求得的输出和我们真实想要的输出存在偏差。体现在联合概率分布上就是,真实想要的分布应该是全局归一化得到的。而建模得到的分布是局部归一化得到的。exposure bias是由于seq2seq训练难以收敛,而引入了teacher forcing训练技巧,使得训练更容易收敛。由于t原创 2020-06-04 16:20:14 · 1980 阅读 · 0 评论 -
DPCNN论文阅读总结
Deep pyramid Convolutional Neural Networks for Text Categorization摘要:本文提出了一个低复杂度,词级别用于文本分类的深度卷积神经网络,该模型可以有效的获得文本长距离联系的表示。针对文本分类,有一些深并且复杂的模型被提出,但它都假设相当大的训练数据可以使用。随着网络的加深,计算复杂度也会提升,导致实际应用困难。并且,近期研究表...原创 2020-04-16 16:28:07 · 2282 阅读 · 0 评论 -
TextRCNN论文阅读总结及pytorch实现
Recurrent Convolutional Nerual Networks for Text Classfication摘要:文本分类是NLP中的基础任务,传统的文本分类通常依赖于手工设计的特征,例如字典,先验知识,special tree kernels等。不同于传统方法,本文提出了一个无需手工设计特征的循环卷积神经网络用于文本分类。这个模型使用循环网络结构尽可能远的捕获语义信息,相...原创 2020-04-14 17:19:39 · 2250 阅读 · 1 评论