![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 89
游离态GLZ不可能是金融技术宅
这个作者很懒,什么都没留下…
展开
-
P-tuning的论文大白话阅读笔记和代码实现
P-tuning论文笔记与代码实现原创 2022-05-30 22:35:36 · 1502 阅读 · 4 评论 -
CRF原理的理解与举例分析
CRF原理的理解与举例分析1.以词性标注为例说明CRF的任务目标2.CRF的特征函数3. 从特征函数到概率4. VS逻辑回归5. VS HMM1.以词性标注为例说明CRF的任务目标句子BobdrankcoffeeatStarbucks可能的标注1名词动词名词介词名词可能的标注2名词动词动词介词名词……………一个长度为k的句子,有m种词性,则有kmk^mkm种可能的标注方法。针对上述例子,第一种显然优于第二种,因为动词+动词这种形原创 2021-01-18 17:25:22 · 653 阅读 · 1 评论 -
如何用MeCab训练一套中文分词软件
MeCab是一套采用CRF算法的开源日文分词软件(内嵌CRF++),由于其使用算法的通用性,可以通过其他语言的语料词典和基于对语言了解所设定的模板,利用MeCab训练日文以外的语言分词软件。本文则以中文为例,记录训练的流程方法。参考:https://zhuanlan.zhihu.com/p/86884557MeCab原理和设计参考:日文分词器 Mecab 文档MeCab设计结构:1.准备1.1 语料库准备采用icwb2-data数据集中提供的中文词库1.2 工作文件夹准备首先在icwb2-原创 2021-01-06 13:18:30 · 788 阅读 · 0 评论 -
Transformer原理个人解读
文章目录1.为什么要有Transformer1.1 传统RNN-Based Model的缺点(1)不支持并行,效率低(2) 记忆能力有限1.2 Attention方法的出现2.Transformer的原理与结构Transformer的Attention——Self-Attention1.为什么要有Transformer任何一个新事物的出现都来源于对于传统方法的批判和新技术基础的出现。1.1 传统RNN-Based Model的缺点以NLP任务为背景,来分析一下传统RNN-Based Model的缺点原创 2020-12-01 22:30:32 · 507 阅读 · 0 评论 -
Attention的基本原理与模型结构
我们尝试用人记忆和理解事物的方式来思考人工智能:在这里插入图片描述为什么我们需要引入这种Attention机制:以seq2seq为例:传统的seq2seq可以理解为让RNN从左往右看一遍要Encode的序列,并将记忆不断存入隐藏层。但是隐藏层的维度是有限的,就像人类的记忆力有限,当序列很长时,读到最后一个word时很可能已经对开头的word发生遗忘,要以看一遍的记忆完整复述整个序列或者对序列做翻译等操作,是存在局限的。因此我们可以借助人类产生工作记忆的方式,在decode时计算当前隐藏层和之前序列原创 2020-11-28 16:39:42 · 401 阅读 · 0 评论 -
CRF条件随机场模型笔记
同上一篇《以序列标注为例学习隐马尔可夫模型HMM》一样,仍旧以序列标注问题为例。序列标注问题是给定一个序列XXX,求一个函数fff,使得XXX通过fff映射得到想要的序列YYY,即:f:X→Yf:X \rightarrow Yf:X→Y1.CRF基本假设与HMM模型认为P(x,y)是转移概率和发射概率的乘积不同,CRF认为:P(x,y)∝exp(ωϕ(x,y))P(x,y) \varpropto exp(\omega \phi(x,y))P(x,y)∝exp(ωϕ(x,y))其中ω\o原创 2020-09-12 13:09:42 · 174 阅读 · 0 评论 -
以序列标注为例学习隐马尔可夫模型HMM
隐马尔可夫模型(HMM)是可用于序列标注的统计概率模型,在自然语言处理、语音识别等领域有广泛的应用。本文以自然语言处理中经典的序列标注问题为例,说明HMM的原理与用法。1.序列标注序列标注问题是给定一个序列XXX,求一个函数fff,使得XXX通过fff映射得到想要的序列YYY,即:f:X→Yf:X \rightarrow Yf:X→Y2.序列标注中HMM的思路为了简便场景,选择序列标注中的词性标注作为代表。step1基于语法规则,生成一个词性序列,例如:“PN V D N”认为pos间原创 2020-09-11 00:29:47 · 404 阅读 · 0 评论 -
论文浅尝 | Enriching Pre-trained Language Model with Entity Information for Relation Classification
论文针对句子级别的关系抽取问题提出了一种结合BERT预训练模型和目标实体信息的模型。1. 文章主要贡献提出将 BERT 用在了关系抽取任务, 探索了实体和实体位置在预训练模型中的结合方式。可以通过在实体前后加标识符得方式表明实体位置, 代替传统位置向量的做法,论文也证实了这种方法得有效性。2. 论文模型详解2.1 数据预处理1)针对输入进来的句子,需要在句首增加[cls]符号2)在第一个实体前后增加$符号3)在第二个实体前后增加#符号e.g. “The kitchen is原创 2020-07-23 22:22:48 · 329 阅读 · 0 评论 -
论文浅尝 | K-BERT: Enabling Language Representation with Knowledge Graph
1.论文动机论文认为通过泛用型公开语料预训练得到的BERT模型只拥有“常识”,在特定垂直领域(如科技、医疗、教育等)的任务中表现效果存在提升空间。由于pre-training and fine-tuning在领域上的差异,利用BERT做知识驱动任务的时候表现不尽如人意。论文提出的K-BERT通过引进知识图谱(将知识库中的结构化信息(三元组)融入到预训练模型)中,可以更好地解决领域相关任务。如何将外部知识整合到模型是论文解决的核心难点,他存在两个问题:Heterogeneous Embedding S原创 2020-07-22 19:32:21 · 1571 阅读 · 0 评论 -
游离态GLZ的NLP任务2——用维特比算法实现词性标注
1.词性标注任务的基本分析2.训练集所需要构筑的数据A:词—词性统计库B:bigram模型下wi—wi−1w_i—w_{i-1}wi—wi−1统计库pi:句首词词性统计库#给每个单词和词性一个标号,并留下标号和词性转换的字典def generate_id_dict(): word2id,id2word = {},{} #word2id:{apple:0,banana:2...} id2word:{0:apple,1:banana} tag2id,id2tag = {},{}原创 2020-07-10 17:18:39 · 304 阅读 · 0 评论 -
游离态GLZ的NLP任务1:拼写纠错
当我们使用搜索引擎的时候,经常会发现我们打错了我们想要检索的东西,但是搜索引擎仍旧给了我们正确的答案。比如我们把"python"打成了"pathon",百度成功识别了出来我们真正想要的。拼写纠错的核心在于编辑距离这一NLP任务的常用基础算法。编辑距离等于把一个字符串通过删除、修改、插入三种操作改为另一个字符串的最短距离(强烈建议刷一下这道DP题)。实现拼写纠错时,我们需要预先准备好一个词典库,代表常见的词汇(一般认为这些是正确的)。当用户输入一个可能拼写错误的词时,我们生成编辑距离一定的候选词,把这些原创 2020-07-07 13:42:21 · 354 阅读 · 0 评论