![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 65
smartcat2010
这个作者很懒,什么都没留下…
展开
-
计算句子向量相似度:SentenceBert和SimCSE
Sentence Bert;SimCSE;原创 2023-02-23 17:47:00 · 1168 阅读 · 0 评论 -
预训练模型综述
预训练模型综述摘要:近年来,预训练模型的出现将自然语言处理带入了一个新的时代。本文概述了面向自然语言处理领域的预训练模型技术。我们首先概述了预训练模型及其发展历史。并详细介绍自然语言处理领域的经典预训练模型,包括最经典的预训练模型技术和现在一系列新式的有启发意义的预训练模型。然后梳理了这些预训练模型在自然语言处理领域的优势和预训练模型的两种主流分类。最后,对预训练技术的未来发展趋势进行了展望。关键词:深度学习、自然语言处理、预训练模型1 引言在学术界,预训练语言模型(PLMs,Pre-tra转载 2022-01-24 08:28:30 · 1365 阅读 · 0 评论 -
多轮对话实现
个人助理(完成任务):填充槽位1. 先做意图识别,可以是树形;2. 槽位填充;可以由机器去向人问问题;要能识别话题跳转;谈多轮对话 - 简书转载 2021-11-13 21:27:52 · 486 阅读 · 0 评论 -
Word2Vec/WordEmbedding笔记
CBOW: Continous Bag Of Words; Context词预测中心词;Skip-gram:中心词预测Context词;最原始的训练网络是Context词的WordEmbedding首尾相连,输入浅层神经网络,输出层是word个数个节点的softmax;每次context词们做输入,中心词做softmax输出的label;缺点:最后一层softmax节点数太多(等于词库大...原创 2018-12-05 11:57:27 · 593 阅读 · 0 评论 -
DSSM的细节
word hashingword hashing方法是用来减少输入向量的维度,该方法基于字母的n-gram。给定一个单词(good),我们首先增加词的开始和结束部分(#good#),然后将该词转换为字母n-gram的形式(假设为trigrams:#go,goo,ood,od#)。最后该词使用字母n-gram的向量来表示。这种方法的问题在于有可能造成冲突,因为两个不同的词可能有相同的n-gr...原创 2019-12-01 19:27:52 · 3121 阅读 · 0 评论 -
美团大脑--知识图谱在美团和点评中的应用
美团大脑:知识图谱的建模方法及其应用 | 公开课笔记前部和尾部是干货转载 2019-11-28 20:44:54 · 413 阅读 · 0 评论 -
LDA提取标签
LDA (一) 文本关键词提取LDA (三) 关键词提取2.0LDA相关改进测试文本到来,先LDA一把,得到主题向量,选概率最高的前K(K=10?或者根据测试文本长度来定)个主题,每个主题再选主题词向量里概率最高的N个词(N=30?),构成候选关键词集合(可以带权重,权重可以=主题概率*词概率*测试文本该词的TF-IDF), 测试文本里在候选关键词集合里的词,且权重大于一定阈值(或者个...转载 2019-11-28 20:17:19 · 1176 阅读 · 0 评论 -
CRF
有讲解有代码例子:CRF 将输出层面的关联分离了出来Softmax将序列标注看成是 n 个 k分类问题,CRF将序列标注看成是 1 个 k^n分类问题打分函数取softmax就得到概率计算归一化因子(所有路径的总概率),预测Viterbi, 都是用的动态规划。讲解Tensorflow里的LSTM+CRF实现:https://blog.csdn.net/u011...转载 2019-03-02 18:59:03 · 188 阅读 · 0 评论 -
NCE损失(Negative Sampling)
DSSM的损失函数: 先是1个正例和5个负例过softmax:最后交叉熵损失函数:Word2Vec的损失函数:输入词的词向量和预测词(或负例)的分界面向量点乘,经过sigmoid,再过交叉熵损失函数在词向量的生成过程中,用的loss函数是NCE或negative sampling,而不是常规的softmax。在《learning tensorflow》这本书中,作者这...转载 2019-11-19 17:56:56 · 3760 阅读 · 0 评论 -
FastText介绍
fastText原理和文本分类实战,看这一篇就够了fastText是一个快速文本分类算法,与基于神经网络的分类算法相比有两大优点:1、fastText在保持高精度的情况下加快了训练速度和测试速度2、fastText不需要预训练好的词向量,fastText会自己训练词向量3、fastText两个重要的优化:Hierarchical Softmax、N-gramfastText模型架构和...转载 2019-11-16 18:59:09 · 1083 阅读 · 0 评论 -
Bert在NLP各领域的应用
Bert 给人们带来了大惊喜,不过转眼过去大约半年时间了,这半年来,陆续出现了与Bert相关的不少新工作。最近几个月,在主业做推荐算法之外的时间,我其实一直比较好奇下面两个问题:问题一:Bert原始的论文证明了:在GLUE这种综合的NLP数据集合下,Bert预训练对几乎所有类型的NLP任务(生成模型除外)都有明显促进作用。但是,毕竟GLUE的各种任务有一定比例的数据集合规模偏小,领域也还是...转载 2019-11-08 19:14:34 · 948 阅读 · 0 评论 -
细品BERT
Bert时代的创新:Bert应用模式比较及其它根据几篇相关论文的实验结果,得到一下分析和结论:1. 对比了特征集成和fine-tuning两种方式的优劣,结论是,在不同的任务上效果是各不相同的。采取Fine-tuning的模式更有可能达到最优效果。2. 对比了只是用顶层输出和加权平均各个层输出的优劣,结论是:可能跟任务类型有关,不同类型的任务可能结论不太一样,背后可能有更深层的原因在起...转载 2019-11-08 16:57:55 · 162 阅读 · 0 评论 -
XLNet
XLNet原理解读XLNet起作用的,归纳一下,共有三个因素;1. 与Bert采取De-noising Autoencoder方式不同的新的预训练目标:Permutation Language Model(简称PLM);这个可以理解为在自回归LM模式下,如何采取具体手段,来融入双向语言模型。这个是XLNet在模型角度比较大的贡献,确实也打开了NLP中两阶段模式潮流的一个新思路。2. 引...转载 2019-11-07 22:26:17 · 163 阅读 · 0 评论 -
周明:NLP的进步将如何改变搜索体验?
周明:NLP的进步将如何改变搜索体验?搜索引擎最重要的2件事:1. 智能程度,指的是理解用户意图和文档,然后快速找出答案,这是智能部分;2. 是自然程度(Naturalness),指的是根据用户输入的搜索请求,把搜索结果很自然地展现给用户,整体表现就是搜索非常流畅。输入框,用于输入Query。Context/Query Understanding:搜索引擎首先要理解Context,就是什...转载 2019-10-23 21:01:31 · 139 阅读 · 0 评论 -
MinHash和SimHash
MinHash: 用文档里所有词最小的K个哈希值做特征集合,表征这篇文档;文档之间的相似度在这个集合上用Jaccard距离;适合海量文档,所有文档只做一遍预处理,两两之间的词集合大大减小;原文链接:https://my.oschina.net/pathenon/blog/652101.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两转载 2017-11-13 17:07:38 · 1376 阅读 · 0 评论 -
LDA主题模型
在解释LDA之前需要先介绍些前置知识,然后一点点说明LDA,所以,如果某个前置知识你不明白,那个人建议你不要跳过,否则....否则随你喽~PS:下面章节的关系是:LDA的DA是“Dirichleet分布”的缩写Dirichleet分布是Beta分布推广到多维的情况Beta分布和Γ函数有关系,且它是二项分布的共轭先验分布Γ函数其实就是阶乘在实数上的推广转载 2017-11-14 23:38:11 · 700 阅读 · 0 评论 -
LDA通俗解释
LDA整体流程先定义一些字母的含义:文档集合D,topic集合T D中每个文档d看作一个单词序列< w1,w2,...,wn >,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响) D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D作为输入(会有切词,去停用词,取词干等...转载 2017-11-14 23:53:41 · 2661 阅读 · 0 评论 -
Transformer
Transformer讲解知识点:做机器翻译的,Self-attention, query-key-value, Multi-headed, FFN,position-embedding, 拟合残差,归一化是Layer Normalization,解码器增加了一层和编码器Attention,beam-search;所有的编码器在结构上都是相同的,但它们没有共享参数(每个编码器的网络参数...原创 2019-09-24 19:29:30 · 2212 阅读 · 0 评论 -
BERT
BERT通俗讲解精华:每个词最终的目标向量,充分得编码了该词前面的部分和该词后面的部分(充分利用了双向的上下文信息);牛在哪里:双向深度编码很有用;预训练做得好,省去了复杂的Task定制;在11个NLP任务上胜出;一个句子来了,每个单词有3个embedding相加,输入到Transformer里,每个词得到一个目标向量;预训练是同时训练以下2方面:1. Masked word:...原创 2019-09-27 16:51:14 · 137 阅读 · 0 评论 -
EMLo & GPT
ELMo: feature-based(做Task任务的时候直接使用预训练网络输出的词向量,即预训练网络不跟Task一起Train);双向RNN-LSTM;OpenAI GPT: fine-tune-based(做Task任务的时候,前面的预训练网络也跟着一起Train), 用的Transformer;BERT:fine-tune-based, Transformer,用加MASK的方法...原创 2019-09-27 16:55:00 · 404 阅读 · 0 评论 -
关键词抽取
1. 刘知远:作者:刘知远链接:https://www.zhihu.com/question/21104071/answer/24556905我博士阶段的研究课题就是关键词抽取,欢迎下载阅读我的论文“基于文档主题结构的关键词抽取方法研究”。以我做关键词抽取的经验,建议如下:1. TFIDF是很强的baseline,具有较强的普适性,如果没有太多经验的话,可以实现该算法基转载 2017-09-07 11:51:45 · 5312 阅读 · 0 评论