
NLP
自然语言处理基础
NLP_victor
这个作者很懒,什么都没留下…
展开
-
NLP任务常见评价指标
1、匹配任务原创 2020-08-29 21:16:29 · 1365 阅读 · 0 评论 -
FastText详解
1、fastText原理及实践https://zhuanlan.zhihu.com/p/32965521在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。在标准的多核CPU上, 能够训练10亿词级别语料库的词向量在10分钟之内,能够分类有着30万多类别的50多万句子在1分钟之内。1.1、预备知识Softmax回归:...原创 2020-04-22 16:00:54 · 2681 阅读 · 0 评论 -
NLP基础笔记——ELMo
1 、模型原理与架构原文链接:Deep contextualized word representationsELMo是从双向语言模型(BiLM)中提取出的Embedding。训练时使用BiLSTM,给定N个tokens (t1, t2,...,tN), 目标为最大化:ELMo对于每个token , 通过一个L层的biLM计算出2L+1个表示:其中 是对token进行直...原创 2019-06-23 21:53:56 · 2627 阅读 · 0 评论 -
NLP基础笔记——BERT
一、Transformer谷歌推出的BERT模型在11项NLP任务中夺得STOA结果,引爆了整个NLP界。而BERT取得成功的一个关键因素是Transformer的强大作用。谷歌的Transformer模型最早是用于机器翻译任务,当时达到了STOA效果。Transformer改进了RNN最被人诟病的训练慢的缺点,利用self-attention机制实现快速并行。并且Transformer可以增...原创 2019-05-30 21:35:30 · 3348 阅读 · 1 评论 -
NLP领域的预训练模型(Transformer、BERT、GPT-2等)
英文原文链接:https://www.analyticsvidhya.com/blog/2019/03/pretrained-models-get-started-nlp/1 介 绍如今,自然语言处理(Natural Language Processing,NLP)应用已经变得无处不在。我似乎总是不经意间发现一些网站和应用程序,以这样的或那样的形式利用了自然语言处理技术。简而言之,现...翻译 2019-04-02 20:19:00 · 4309 阅读 · 0 评论 -
NLP基础笔记——图解LSTM和GRU
一、LSTM(Long-Short-Term-Memories)LSTM单元结构图及其公式二、GRU(Gated Recurrent Units)GRU单元结构图及其公式三、LSTM和GRU的区别?GRU和LSTM的性能在很多任务上不分伯仲。 GRU 参数更少因此更容易收敛,但是数据集很大的情况下,LSTM表达性能更好。 从结构上来说,GRU只有...原创 2019-03-31 20:10:53 · 2132 阅读 · 0 评论 -
NLP基础笔记5——词向量
一、什么是词向量词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是 One-hot,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。还有 Google 团队的 Word2Vec,值得一提的是,Word2Vec 词向量可以较好地表达不同词之间的相似和类比关系。除此之外,还有一些词向量...原创 2019-02-27 21:22:28 · 2111 阅读 · 1 评论 -
NLP小白的入门学习路线
新学期开始了,看了一些经验贴,现在学习前辈的经验给自己总结点规划,希望今年是收获满满的。一、推荐Github/博客系列(持续更新……)NLP/ML/CV[1]Algorithm_Interview_Notes-Chinese[2]THUNLP机器阅读理解[3]52nlp[4]深度学习前沿笔记[5]cs224n-camp[6]火爆 GitHub 的《机...原创 2019-02-24 13:59:39 · 3213 阅读 · 1 评论 -
NLP基础笔记4——语言模型
一、简介首先放一张基于Language Model的NLP主要模型算法梳理框图。NLP语言模型可分为传统语言模型与神经语言模型。简言之,语言模型就是给句子(词序列)分配一个概率。这个概率表示这句话“合理程度”。举个例子:你儿子在我手上,快点把打过来。 prob=0.80# 这样一个句子,非常“通顺”,就得到一个很高的概率值。特朗普在厕所里摆满了多个艺员。 prob=0.2...原创 2019-02-23 22:29:34 · 897 阅读 · 1 评论 -
NLP基础笔记3——句法分析
相较于前两节介绍的词法分析(分词、词性标注或命名实体识别等),句法分析属于NLP较为高阶的问题。本节着重介绍基于统计的句法分析方法,主要介绍基于上下文无关文法的句法分析。在自然语言学习过程中,每个人一定都学过语法,例如句子可以用主语、谓语、宾语来表示。在自然语言的处理过程中,有许多应用场景都需要考虑句子的语法,因此研究语法解析变得非常重要。我们可以用树状结构图来表示,S表示句子;NP、VP、...原创 2019-02-23 20:35:40 · 3669 阅读 · 0 评论 -
NLP基础笔记2——词性标注与命名实体识别,关键词提取技术
一、词性标注词性标注(Part-of-Speech tagging 戒POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词戒其他词性的过程。在汉语中,词性标注比较简单,因为汉语词汇词性多变的情况比较少见,大多词语只有一个词性,戒者出现频次最高的词性远远高于第二位的词性。据说,只需选取最高频词性,即可实现80%...原创 2019-02-22 14:47:23 · 3383 阅读 · 0 评论 -
NLP基础笔记1——中文分词技术
一、简介中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是其他中文 (信息) 处理的基础,搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。目前主流分词方法:基于规则,基于统计以及二者混合。基于规则的分词:主要是人工建...原创 2019-02-20 21:17:12 · 1530 阅读 · 6 评论 -
自然语言处理综述
自然语言处理技术分类工业界NLP四大任务:① 序列标注:分词、POSTag 词性标注、NER、语义标注② 分类任务:文本分类、情感计算③ 句子关系判断:Entailment、QA、自然语言推理④ 生成式任务:机器翻译、文本摘要拓:自然语言推理是NLP高级别的任务之一,不过自然语言推理包含的内容比较多,机器阅读,问答系统和对话等本质上都属于自然语言推理。文本蕴含任务(te...原创 2019-02-01 20:32:54 · 1962 阅读 · 1 评论