![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 83
约定写代码
虽然8年前开始学习更好,但今天开始学习,总要好过明天再开始。
展开
-
闲聊型对话系统之NLG总结报告
文章目录1 项目介绍1.1 背景知识介绍1.2 NLG的实现方式1.2.1 基于模板1.2.2 检索式1.2.3 生成式1 项目介绍1.1 背景知识介绍对话系统按领域分类,分为任务型和闲聊型。闲聊型对话系统有Siri、微软小冰、小度等。它们实现可以以任意话题跟人聊天。任务型对话系统是以完成特定任务为目标的对话系统。例如可以以订机票为一个特定的任务,实现的对话系统。我们这里重点关注任务型对话系统。任务型对话系统分为语音识别、自然语言理解NLU、对话管理DM、自然语言生成NLG、语音合成几个部分。与N原创 2021-09-05 10:07:00 · 1544 阅读 · 0 评论 -
对话系统之NLU总结报告
文章目录1 项目介绍1.1 背景知识介绍1.2 数据集介绍1.3 评价指标2 技术方案梳理2.1 模型目标2.2 模型介绍2.3 模型实现2.3.1 数据处理2.3.2 构建dataset2.3.3 模型定义2.3.4 训练相关参数2.3.5 训练结果3 项目总结1 项目介绍1.1 背景知识介绍对话系统按领域分类,分为任务型和闲聊型。闲聊型对话系统有Siri、微软小冰、小度等。它们实现可以以任意话题跟人聊天。任务型对话系统是以完成特定任务为目标的对话系统。例如可以以订机票为一个特定的任务,实现的对话系原创 2021-09-04 00:37:04 · 2371 阅读 · 1 评论 -
NLG模块实现(未完成)
NLG(Natural Language Generation),计算机将结构化数据转换为文本并以人类语言编写信息。使用GPT框架完成NLG任务。GPT模型是预训练模型, 采用两阶段过程,第一个阶段是利用语言模型进行预训练(无监督形式),第二阶段通过 Fine-tuning 的模式解决下游任务(监督模式下)。GPT模型是Seq2Seq模型中的一种。分为encoder和decoder两部分。encoder:有12个transform block。输入句子,输出词向量。decoder:有12个trans原创 2021-08-23 09:03:25 · 283 阅读 · 0 评论 -
理解transformer
文章目录1 注意力机制2 自注意力机制3 自注意力机制加强版4 Transformer的结构4.1 input4.2 encoder4.2.1 Multi-head attention4.2.2 残差链接4.2.3 层正则化layer norm4.2.4 前馈神经网络 feed forward network4.3 decoder4.3.1 输入4.3.1 Masked Multi-head attention4.3.2 Multi-head attention4.3.3 前馈神经网络 feed forwa原创 2021-08-03 09:20:09 · 587 阅读 · 1 评论 -
再谈BERT
第三次讲到了BERT。第一次是文章目录1 关于预训练模型1.1预训练概念1.2 再谈语言模型1.3 ELMo1.4 GPT1 关于预训练模型1.1预训练概念预训练模型最早用于CV领域。深度学习模型就是一个y=fθ(x)y=f_{\theta}(x)y=fθ(x)查找最优θ\thetaθ的过程。如果参数θ\thetaθ初始值合适的话,会加快模型训练进度。预训练就是在任务上优化参数,最后得出一套参数。这套参数可以作为下游任务的初始值。为什么预训练模型可原创 2021-04-14 09:10:02 · 303 阅读 · 0 评论 -
transformer & bert &GPT(未完)
原文标题:⼤规模⽆监督预训练语⾔模型与应⽤(中)文章目录1 transformer1.1 encoder部分1.1.1 Attention定义1.1.2 Multi-head Attention1.1.3 position-wise feed-forward networks1.1.4 positional encoding1.1.5 残差链接1.1.6 layer norm1.2 decoder部分2 bert1 transformer论文Attention原创 2021-04-12 08:51:43 · 350 阅读 · 1 评论 -
⼤规模⽆监督预训练语⾔模型与应⽤(上)
文章目录1 单词作为语言模型的基本单位的缺点1 单词作为语言模型的基本单位的缺点单词量有限,遇到没有见过的单词只能以UNK表示。模型参数量太大。...原创 2021-04-11 19:14:44 · 221 阅读 · 0 评论 -
文本生成模型
文本生成目前(2019年)还没有确定的可工程化的用途。主要模型有:Variational Auto Encoder (VAE)和Generative Adversarial Networks (GAN)这个对我来说是新的内容,需要再次消化。...原创 2021-04-07 08:09:33 · 534 阅读 · 0 评论 -
再看机器翻译
前面有文章具体介绍了机器翻译用到的模型:seq2seq和加入attention机制。这里再说点别的。1 机器翻译评价标准BLUE参考文章介绍的很详细。论文地址:url2 模型背后的理论:密码学例如从中文翻译成英文,可以将中文看做是加密了的英文。3 工程上1 Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation2 NEURA原创 2021-04-02 17:01:53 · 138 阅读 · 0 评论 -
nlp中的经典模型(三)
文章目录5 NLP中的卷积神经网络5.1 卷积5.2 多通道5.2 max pooling5 NLP中的卷积神经网络RNN的问题:1 时间复杂度高2 最后一个向量包含所有信息。有点不可靠CNN可以通过卷积核捕捉局部特征,那是不是可以用于句子,表示特定长度的词序列呢?例如句子:他 毕业 于 上海 交通 大学。如果长度设定为3,那么CNN应该可以捕获他 毕业 于毕业 于 上海于 上海 交通上海 交通 大学这样一些词序列的特征5.1 卷积卷积原创 2021-04-01 08:38:17 · 314 阅读 · 0 评论 -
nlp中的经典深度学习模型(二)
文章目录3 seq2seq+Attention3.1 Sequence to Sequence Model3.1.2 模型介绍3.1.2 模型训练3.2注意力机制3 seq2seq+Attention3.1 Sequence to Sequence Model3.1.2 模型介绍Sequence to Sequence Model解决y=f(x)的问题。x是一个序列,y是一个序列。最常应用于翻译问题。模型包含编码器和解码器2部分。编码器:输入序列编码原创 2021-03-31 09:09:14 · 362 阅读 · 0 评论 -
nlp中的经典深度学习模型(一)
文章目录1 DNN与词向量1.1 DNN1.2 skip-gram1.3 简单句子分类模型DAN2 RNN+LSTM+GRU2.1 RNN2.2 LSTM1 DNN与词向量1.1 DNN神经网络中每一个神经单元是一个线性变化加一个激活函数s=UTas=U^Tas=UTaa=f(z)a=f(z)a=f(z)z=Wx+bz=Wx+bz=Wx+b多层神经网络就是不断向前加。1.2 skip-gram通过中心词 预测周围词。整体训练网络如上图。词表大小原创 2021-03-30 18:22:48 · 781 阅读 · 0 评论 -
三、自然语言分类
三种分类方式:Word Averaging模型、RNN、CNN。1 Word Averaging模型我们首先介绍一个简单的Word Averaging模型。这个模型非常简单,我们把每个单词都通过Embedding层投射成word embedding vector,然后把一句话中的所有word vector做个平均,就是整个句子的vector表示了。接下来把这个sentence vector传入一个Linear层,做分类即可。怎么做平均呢?我们使用avg_pool2d来做average pooling原创 2021-03-30 09:28:48 · 819 阅读 · 0 评论 -
二、语言模型
文章目录1 语言模型2 语言模型评价指标:Perplexity3 基于神经网络的语言模型3.1 RNN3.2 LSTM3.3 GRU4 优化函数5 模型代码6 用途与评价1 语言模型语言模型的任务是判断一句话出现的概率(也就是说一句话是不是人说的),可以表示为:P(W)=P(w1,w2,...wn)P(W)=P(w_1,w_2,...w_n)P(W)=P(w1,w2,...wn)使用链式法则求概率:P(W)=P(w1,w2,...wn)=∏iP(wi∣w1,w2,...wi−1)P(W)=P(原创 2021-03-30 09:20:24 · 195 阅读 · 0 评论 -
一、词向量模型
因为计算机不能理解词语,所以我们需要用词向量表示一个词。词向量有一个发展历程。1 one-hot2 bag of wordstf-idfbinary weightingb-gram和n-gram优点:考虑了词的顺序缺点:词表膨胀,无法衡量向量之间的相似性3 分布式表示skip-gram输入第t个词,用一层的神经网络,预测周围的词,也就是第t-2个,t-1个,t+1个,t+2个…。这个任务本身没有意义,做这件事情的意义是拿到词向量。拿到词向量可以用于查找一个词的邻原创 2021-03-24 23:59:21 · 5017 阅读 · 0 评论 -
N元语法模型的数据稀疏问题解决方法之一:Good-Turing平滑
转载自时空霹雳 在统计语言模型章节中,我们谈到了N元语法模型不可避免的一个问题,就是数据稀疏,其原因是大规模语料统计与有限语料的矛盾。根据齐普夫(Zipf)法则,我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多,本文将介绍众多算法中的佼佼者:古德-图灵(Good-Tu转载 2021-03-10 06:49:03 · 1522 阅读 · 0 评论 -
朴素贝叶斯
转载自寒老师的文章文章目录1引言2 贝叶斯公式3 用机器学习的视角理解贝叶斯公式4 垃圾邮件识别5 分词6 条件独立假设7 朴素贝叶斯(Naive Bayes),“Naive”在何处?8 简单高效9 处理重复语言的三种方式10 去除停用词与选择关键词11 浅谈平滑技术12 内容总结13 为什么不直接匹配关键词14 实际工程的tricks15 贝叶斯方法的思维方式16 贝叶斯方法的应用1引言2 贝叶斯公式3 用机器学习的视角理解贝叶斯公式4 垃圾邮件识别5 分词6 条件独立假设7 朴素贝叶斯(转载 2021-03-03 08:51:39 · 121 阅读 · 0 评论