中文自然语言处理
中文NLP技术专栏
sliderSun
本人知乎ID:sliderSun
展开
-
Transformer++
我们使用如图[1]所示的编码器-解码器架构来对一个序列进行序列建模,该架构遵循Transformer[15]中提出的架构。我们提出了一种计算注意函数的新方法,同时学习了新的多头和传统的多头。对于给定的H(多个头的总数),我们在H/2 heads中使用自我注意来捕获全局依赖关系,并在H/2 heads中使用基于卷积的...翻译 2020-03-26 16:49:34 · 1099 阅读 · 1 评论 -
FGN: Fusion Glyph Network for Chinese Named Entity Recognition
结合中文字形处理NLP任务的并不多推荐一篇:Glyce2.0,中文字形增强BERT表征能力paper:https://arxiv.org/ftp/arxiv/papers/2001/2001.05272.pdfgithub:https://github.com/AidenHuen/FGN-NERModel在本节中,我们将详细介绍用于NER任务的FGN。如图1所示,FGN可以分为三个...原创 2020-01-19 14:22:36 · 1583 阅读 · 1 评论 -
Stacked DeBERT
论文地址:Stacked DeBERT: All Attention in Incomplete Data for Text Classification项目地址:https://github.com/gcunhase/StackedDeBERT我们提出将去噪BERT (DeBERT)叠加作为一种新颖的编码方案,用于对不正确的句子进行不完全的意图分类和情绪分类。如图1所示,该模型的结构为嵌...原创 2020-01-03 16:13:37 · 556 阅读 · 0 评论 -
BERT用于序列到序列的多标签文本分类
BERT FOR SEQUENCE-TO-SEQUENCE MULTI-LABEL TEXT CLASSIFICATION引言我们的主要贡献如下:1. 我们将BERT的结果作为编码器呈现在MLTC数据集的序列到序列框架中,具有或不具有类上的给定层次树结构。2. 介绍并实验验证了一种新的MLTC混合模型。3.我们微调vanilla BERT模型来执行多标签文本分类。据我们所知,这...原创 2019-12-31 21:30:43 · 3239 阅读 · 3 评论 -
intent-slot 变体联合模型
Attention-based recurrent neural network models for joint intent detection and slot filling. Bing Liu and Ian Lane. InterSpeech, 2016. [Code1] [Code2] Encoder-decoder with Focus-mechanism for Sequenc...原创 2019-02-18 11:48:29 · 2554 阅读 · 1 评论 -
中文命名实体识别
http://www.hankcs.com/nlp/the-crf-model-format-description.html CRF++模型格式说明https://www.jianshu.com/p/34a5c6b9bb3e 中文命名实体识别总结https://zhuanlan.zhihu.com/p/27597790 达观数据如何打造一个中文NER系统https://ww...原创 2018-12-08 22:14:44 · 1180 阅读 · 0 评论 -
BERT中文实战(文本相似度)
个人 github BERT本质上是一个两段式的NLP模型。第一个阶段叫做:Pre-training,跟WordEmbedding类似,利用现有无标记的语料训练一个语言模型。第二个阶段叫做:Fine-tuning,利用预训练好的语言模型,完成具体的NLP下游任务。Google已经投入了大规模的语料和昂贵的机器帮我们完成了Pre-training过程 附上中文预训练bert链接:...原创 2018-12-07 16:29:10 · 85494 阅读 · 68 评论 -
Inner Attention模型在深度问答系统中的应用
Attention机制在时序模型中的应用,已经被证明能够提升模型的性能。本文参考《Attentive pooling Networks》,该论文以时序模型输出状态设计Attention为基线(QA_LSTM_ATTENTION),提出了一种同时对问题和答案进行特征加权的Attention设计方案。本文实现了论文中基于LSTM网络结构的Attentio...转载 2018-10-19 10:12:10 · 478 阅读 · 0 评论 -
基于Attention机制的上下文分类算法在问答系统中的应用
文本分类是自然语言处理中的基础算法,在对话系统的应用中,可利用文本分类算法来判断用户的咨询意图。然而单个问题并不能很好捕获用户的意图,通常需要结合用户上文的咨询结合当句才能更好的判断用户的意图。这里就需要我们建立一个基于上下文的分类模型来结合上文信息判断用户的最终意图。这里常用的方式大概分为两个方式:      &nbs...转载 2018-10-19 10:12:25 · 1130 阅读 · 0 评论 -
Deep Learning For NLP BestPrac
转载博客地址:http://ruder.io/deep-learning-nlp-best-practices/index.html Update July 26, 2017: For additional context, the HackerNews discussion about this post.Table of contents:IntroductionBes...转载 2018-10-18 15:13:23 · 299 阅读 · 0 评论 -
CNN文本分类
做法基本上目前较为浅层的CNN文本分类的做法都是如下图:将词向量堆积成为二维的矩阵,通过CNN的卷积单元对矩阵进行卷积处理,同时使用pooling(通常是1max-pooling)操作,将不等长的卷积结果变为等长,对不同的卷积单元的结果进行拼接后生成单个向量,最后再通过线性层转化成类别概率分布。另一张图也说明了该流程。建议与指导超参及其对结果的影响接下来的内容参考了论文A Sensiti...转载 2018-10-18 15:07:18 · 1697 阅读 · 0 评论 -
ELMo词向量用于中文
<p>10.10更新:ELMo已经由哈工大组用PyTorch重写了,并且提供了中文的预训练好的language model,可以直接使用。</p>ELMo于今年二月由AllenNLP提出,与word2vec或GloVe不同的是其动态词向量的思想,其本质即通过训练language model,对于一句话进入到language model获得不同的词向量。根据实...转载 2018-10-18 14:56:24 · 2584 阅读 · 2 评论 -
ELMo词向量用于中文
ELMo于今年二月由AllenNLP提出,与word2vec或GloVe不同的是其动态词向量的思想,其本质即通过训练language model,对于一句话进入到language model获得不同的词向量。根据实验可得,使用了Elmo词向量之后,许多NLP任务都有了大幅的提高。论文:Deep contextualized word representationsAllenNLP一共releas...转载 2018-10-18 14:40:07 · 8859 阅读 · 20 评论 -
Elmo词向量中文训练过程杂记
转载自“素质云博客”, https://blog.csdn.net/sinat_26917383/article/details/81913790 1 elmo是什么?ELMo的 特点:2 Elmo训练有哪些好项目?有训练过程的项目预训练模型...转载 2018-10-18 14:32:28 · 4226 阅读 · 2 评论 -
词向量技术-从word2vec到Glove到ELMo
词向量word2vec VS ELMo本文关键词:NLP、词向量、word2vec、ELMo、语言模型0. 前言"词和句子的嵌入已成为所有基于深度学习的自然语言处理(NLP)系统的重要组成部分,它们在固定长度的稠密向量中编码单词和句子,以大幅度提高神经网络处理文本数据的能力。"大趋势是对通用嵌入的追求:在大型语料库上预训练好的嵌...转载 2018-10-18 14:29:06 · 3372 阅读 · 1 评论 -
训练GloVe中文词向量
准备语料准备好自己的语料,保存为txt,每行一个句子或一段话,注意要分好词。准备源码从GitHub下载代码,https://github.com/stanfordnlp/GloVe将语料corpus.txt放入到Glove的主文件夹下。修改bash打开demo.sh,修改相应的内容因为demo默认是下载网上的语料来训练的,因此如果要训练自己的语料,需要注释掉修改参数设置,将CORP...原创 2018-10-18 14:09:04 · 15054 阅读 · 3 评论