![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 92
StriveQueen
这个作者很懒,什么都没留下…
展开
-
论文阅读笔记(9)——《A Practical Survey on Faster and Lighter Transformers》
1 Abstract2 Introductionrecurrent neural networks (RNNs)long short-term memory (LSTM) networksequence to sequence frameworkinter-attentionrelative effective context length (RECL)Transformer3 TransformerA. EncoderB. DecoderC. Self-AttentionD. Complexity4 G.原创 2021-04-03 19:10:15 · 378 阅读 · 1 评论 -
学习笔记(9)——命名实体识别(NER)
1 概述1 命名实体2 命名实体识别基于隐马尔可夫模型序列标注的命名实体识别1 概述1 命名实体文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等,称为命名实体。具有以下共性:数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。构词灵活。比如中国工商银行,既可以称为工商银行,也可以简称工行。类别模糊。有一些地名本身就是机构名,比如“国家博物馆”。2 命名实体识别识别出句子中命名实体的边界与类别的任务称为命名实体识别。由于上述难点,命名实体识别也是一个统.原创 2020-12-14 14:54:47 · 1850 阅读 · 1 评论 -
学习笔记(8)—— HMM/感知机/CRF--词性标注
参考文献7.HMM/感知机/CRF–词性标注原创 2020-11-23 15:34:42 · 1089 阅读 · 0 评论 -
学习笔记(2)——TransE算法(Translating Embedding)
前言目前网络上存在大量知识库(KBs):如OpenCyc、WordNet、Freebase、Dbpedia等等,它们因不同目的建成,因此很难用到其他系统上。为发挥知识库的图(graph)性,也为得到统计学习(包括机器学习和深度学习)的优势,需要将知识库嵌入(embedding)到一个低维空间里(比如10、20、50维)。获得向量后,就可以运用各种数学工具进行分析。表示学习 :学习一系列低维稠密向量来表征语义信息,知识表示学习是面向知识库中实体和关系的表示学习。大规模知识库(知识图谱)的构建为许多NLP任原创 2020-08-26 20:20:01 · 2646 阅读 · 1 评论 -
学习笔记(1)——Word2vec
简述百度百科:Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。Word2vec 是 Word Embedding 的方法之一,属于 NLP 领域。Word Embedding是将不可计算、非结构化的词转化为可计算、结构化的原创 2020-07-25 13:37:55 · 351 阅读 · 0 评论 -
学习笔记(5)——常用激活函数总结
激活函数原创 2020-10-11 21:07:25 · 400 阅读 · 2 评论 -
学习笔记(4)——序列标注与隐马尔可夫模型
对于一个句子中相对陌生的新词,之前的分词算法识别不出,但人类可以根据构词法进行动态组词。所以我们需要更细粒度的模型,比词语更细粒度的就是字符。只要将每个汉字组词时所处的位置(首尾等)作为标签,则中文分词就转化为给定汉字序列找出标签序列的问题。一般而言,由字构词是序列标注模型 的一种应用。在所有“序列标注”模型中,隐马尔可夫模型 是最基础的一种。序列标注问题序列标注指的是给定一个序列 x=x1x2…xnx=x_{1} x_{2} \ldots x_{n}x=x1x2…xn ,找出序列中每个元素对应原创 2020-08-31 20:10:02 · 1144 阅读 · 0 评论 -
学习笔记(3)——二元语法
语言模型语言模型 指的是对语言现象的数学抽象。即给定一个句子 w,语言模型就是计算句子的出现概率 p(w) 的模型,而统计的对象就是人工标注而成的语料库。数据稀疏 :p(w) 的计算非常难,句子数量无穷无尽。即便是大型语料库,也只能“枚举”有限的数百万个句子。实际遇到的句子大部分都在语料库之外,意味着它们的概率都被当作0。句子一般不重复,但单词是在重复使用,所以把句子表示成单词列表:w1w2⋯wkw_{1} w_{2} \cdots w_{k}w1w2⋯wk,每个wt,t∈[1,k]w_{t},原创 2020-08-27 13:03:32 · 3374 阅读 · 1 评论 -
学习笔记(6)——感知机分类与序列标注
参考文献《自然语言处理入门》——5. 感知机分类与序列标注原创 2020-11-02 19:10:09 · 2041 阅读 · 1 评论 -
学习笔记(7)——条件随机场(CRF)与序列标注
参考文献6.条件随机场(CRF)与序列标注原创 2020-11-12 20:58:09 · 1658 阅读 · 0 评论