![](https://img-blog.csdnimg.cn/064d2158f70941a199abfc8f82a8db06.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理
文章平均质量分 88
NLP领域的相关内容总结
Weiyaner
希望在搜索,推荐,NLP领域持续学习,持续产出。
《鸡声茅店月,人迹板桥霜》
展开
-
Sentence-BERT 语义相似度双塔模型
论文介绍发表:2019,EMNLP论文题目:《Sentence-BERT:sentence embeddings using siaese BERT-networks》论文地址:https://arxiv.org/abs/1908.10084Github:https://github.com/UKPLab/sentence-transformers适用领域:句向量生成语义相似度计算语义搜索无监督任务(聚类)1 概述在20年之前的各种预训练模型中,比如bert,XLNet,Alb原创 2022-04-13 16:41:48 · 7425 阅读 · 2 评论 -
TinyBERT论文及代码详细解读
General DistillationData Augmentation主要基于BERT预训练模型以及词向量(文中选择的Glove词向量)进行词级别的替换,实现数据增强。在官方代码中进行了17(NαN_\alphaNα)倍的增强,以GLUE/QQP数据集为例效果如下:id qid1 qid2 question1 question2 is_duplicate402555 536040 536041 how do i control my 40-something emotions原创 2022-03-30 18:57:17 · 3502 阅读 · 1 评论 -
为什么Bert的三个Embedding可以进行相加,数学证明及代码
这是一个知乎上的经典问题,为什么 Bert 的三个 Embedding 可以进行相加?其中,苏剑林老师的解释感觉很有意思:Embedding的数学本质,就是以one hot为输入的单层全连接。请参考: https://kexue.fm/archives/4122也就是说,世界上本没什么Embedding,有的只是one hot。现在我们将token,position,segment三者都用one hot表示,然后concat起来,然后才去过一个单层全连接,等价的效果就是三个Embedding相加原创 2022-03-28 14:40:12 · 2807 阅读 · 1 评论 -
从Attention到Bert——3 BERT解读
文章目录Bert介绍Bert模型结构1 与GPT,ELMO结构对比2 Bert的输入3 Bert的输出Bert两大预训练任务MLM, NSP1 CV的预训练任务2 Masked language model, MLM 掩码语言模型3 Next sentence predict,NSP,上下文预测模型Bert四大下游任务Finetune1 分类2 序列标注总结1 优点2 缺点Bert介绍BERT的全称是Bidirectional Encoder Representation from Transform原创 2022-03-28 13:50:27 · 1847 阅读 · 0 评论 -
知识蒸馏介绍及比较
文章目录1 知识蒸馏(knowledge)背景2 知识蒸馏原理2.1 概念2.2 如何蒸馏3 常见的几种BERT蒸馏模型3.1 BERT蒸馏3.2 Distiled BiLSTM3.2 BERT-PKD(2019)——精调阶段的蒸馏3.3 DistilBERT(hugging face2019)——预训练阶段蒸馏3.4 TinyBERT(HW,2019)——两阶段蒸馏1 通用蒸馏2 针对特定任务的蒸馏3.5 MobileBERT(ACL2020)1 知识蒸馏(knowledge)背景在训练模型时,我们通原创 2022-03-23 18:12:27 · 14833 阅读 · 0 评论 -
从Attention到Bert——2 transformer解读
1 为何引入Transformer论文:Attention Is All You NeedTransformer是谷歌在2017年发布的一个用来替代RNN和CNN的新的网络结构,Transformer本质上就是一个Attention结构,它能够直接获取全局的信息,而不像RNN需要逐步递归才能获得全局信息,也不像CNN只能获取局部信息,并且其能够进行并行运算,要比RNN快上很多倍。为什么引入Attention,这就得提到它的的三大优点,也是当时面临的三大问题。参数少模型复杂度跟 CNN、RNN原创 2022-03-22 19:34:41 · 1129 阅读 · 0 评论 -
从Attention到Bert——1 Attention解读
文章目录2 Attention的发展历史2015-2017年3 Attention的原理4 Multi-Head Attention5 Self-Attention为什么需要self-attention什么是self-attention随着bert在nlp领域的不断发展和应用,决定要定下决心系统的学习bert,所以,第一篇就从他的基础结构attention开始吧最早,attention诞生于CV领域,真正将其发杨光大的还是在NLP领域,自2018年Google的bert和OPENAI的GPT大火之后,大原创 2022-03-22 19:26:29 · 1675 阅读 · 0 评论 -
关系抽取方法总结(基于规则-传统机器学习-深度学习)
文献来源:https://doi.org/10.1007/978-3-030-33982-1 《A survey of relation extraction of knowledge graphs》0 引言关系抽取是为了解决实体语义链接问题,对许多自然语言处理应用具有重要意义。近年来,与关系抽取相关的研究势头越来越大,本文讨论了关系抽取的发展过程,并对近年来的关系抽取算法进行了分类。此外,我们还讨论了深度学习、强化学习、主动学习和迁移学习。通过分析监督学习、无监督学习、半监督学习和远程监督的基本原原创 2021-11-18 18:51:35 · 17286 阅读 · 3 评论 -
关系抽取——Snowball(半监督学习)总结
本文主要参考2000年的Snowball提出论文半监督学习又称弱监督学习,利用模型的假设,对少量的数据进行标注(freebase),在不足的条件下提高模型在标记样本中的泛化能力,未标记的数据为Corpus text。在论述Snowball之前,先看Boost strap,他是介于监督学习和半监督学习的算法。1 Boost strap根据已知的标记数据seed库,生成规则。在利用该规则在text中进行遍历,生成新的规则,新规则入库,作为标记的数据进行重新遍历。缺陷就是如果生成的一个规则不准确,这个错误原创 2021-11-18 16:06:23 · 2355 阅读 · 0 评论 -
条件随机场(CRF)——3 命名实体识别(NER)
条件随机场经常被用于序列标注,其中包括词性标注,分词,命名实体识别\color{red}词性标注,分词,命名实体识别词性标注,分词,命名实体识别等领域。(yes我会标红了)1 NER任务介绍更多介绍看这里对以下NER任务,进行命名实体识别我 去 北 京其本质上就是一个序列标注任务,根据BIESO标注方案,可以对于每一个字进行打标签序号标注含义0B实体的开端1I实体中间2E实体的结尾3S单个字作为实体4O不作为任何实体所以原创 2021-11-17 17:47:44 · 1816 阅读 · 0 评论 -
条件随机场(CRF)——2 CRF、HMM、LR的比较
1 HMM & CRF1.1 HMM是生成模型,CRF是判别模型。生成式模型根据大量的标注数据,计算联合分布,在通过联合分布计算条件概率进行分类,这就是生成模型的基本思想,而判别式是直接对条件概率进行建模。CRF就像一个反向的隐马尔可夫模型(HMM),两者都是用了马尔科夫链作为隐含变量的概率转移模型。HMM使用隐含变量生成可观测状态,其生成概率有标注集统计得到,是一个生成模型;通过在一个标注集上进行统计,我们很容易得到一个概率转移矩阵,即任意词性A后紧邻任意词性B的概率都可以被统计出来。 然原创 2021-11-17 17:42:18 · 654 阅读 · 0 评论 -
条件随机场(CRF)——1 理论详解
需要的基础:马尔科夫模型隐马尔科夫模型本文分为两大部分,第一部分仔细介绍条件场的提出及基础;第二部分介绍CRF如何应用在NER领域。1 概率无向图模型1.1 概率图模型通过图表示概率分布。无向图G=(V,E)G=(V,E)G=(V,E),节点是随机变量,边表示随机变量之间的概率依赖关系。1.2 三种马尔科夫性质成对马尔可夫性:节点u,v对应的随机变量之间条件独立。局部马尔科夫性: 设v∊ V是无向图G中任意一个结点,W是与v有边连接的所有结点,O是v,W以外的其他所有结点。原创 2021-11-16 22:56:29 · 1140 阅读 · 0 评论 -
HMM隐马尔科夫模型(附维特比代码)
背景知识:马尔科夫模型1 马尔科夫的局限性在一些情况下,我们并不能直接得到观测的结果,比如在天气系统中,我们不能直接得到天气的状态,但是我们有一堆蚂蚁,可以从蚂蚁的行为状态找到天气变化的关系规律。此时我们就有两组状态:观察的状态(即蚂蚁的行为状态)隐藏的状态(天气状态)在这种情况下,我们希望设计出一个模型,在不能直接观测到天气状态的情况下,通过观测蚂蚁的状态,预测出下一天气状态。这就是隐马尔可夫模型(hidden Markov Model)的思想。2 隐马尔可夫模型1 介绍隐马尔可夫模型原创 2021-11-16 21:37:32 · 1555 阅读 · 0 评论 -
知识图谱全面总结
文章目录1 介绍1.1 定义1.2 发展历史1.3 知识图谱的应用2 数据存储2.1 资源描述框架(Resource Description Framework,RDF)2.2 图数据库3 知识图谱架构3.1 逻辑架构3.2 技术架构4 构建技术4.1 数据获取4.2 信息抽取(Information Extraction)(1)实体抽取(Entity Extraction)(2)关系抽取(Relationship Extraction)(3)事件抽取(Event Extraction)4.3 知识融合(K原创 2021-11-15 21:56:31 · 5978 阅读 · 0 评论 -
知识图谱的经典知识库总结
文章目录1 早期的知识库项目1、Cyc2、WordNet3、ConceptNet2 互联网时代的知识图谱1 Freebase2 DBpedia3 Schema.org4 Wikidata5 BabeINet6 NELL(Never-Ending Language Lcamer)7 Yago8 Microsoft ConceptGraph9 LOD3 中文开放知识图谱4 垂直领域的知识图谱自人工智能概念提出依以来,构建大规模的知识库一直都是AI,NLP领域的核心任务之一。下面分别介绍早期的知识库项目、互联网原创 2021-11-15 18:20:47 · 4322 阅读 · 0 评论 -
命名实体识别(基于规则-无监督学习-机器学习-深度学习)
文章目录1 简介2 NER标注语料库3 NER工具库4 序列标注标签方案5 四类NER方法(规则-无监督学习-机器学习-深度学习)5.1 基于规则的NER5.2 基于无监督学习方法5.2 基于机器学习(含特征的有监督学习)基于深度学习方法**1、输入层****2、编码层**3、解码层6 其他实体识别任务中的常见问题及对策各类研究方向的NER方法NER任务的挑战与机遇Reference1 简介 命名实体识别(Named Entity Recongnition,NER)是自然语言处理中的一个基础任务,也是原创 2021-11-12 00:01:42 · 11542 阅读 · 0 评论 -
GPT和BERT优缺点比较
GPT(Generative Pre-Training)和BERT(Bidirectional Encoder Representation from Transformers)都是以Transformer为主题架构的预训练语言模型,都是通过“预训练+fine tuning”的模式下完成下游任务的搭建从模型的角度上1) GPT是单向模型,无法利用上下文信息,只能利用上文;而BERT是双向模型。2) GPT是基于自回归模型,可以应用在NLU和NLG两大任务,而原生的BERT采用的基于自编码模型,只能原创 2021-08-19 16:58:20 · 15138 阅读 · 3 评论 -
nltk.download()下载数据,错误代码11004,快速本地下载数据集的方法
在下载nltk数据集的过程中,直接使用下载器会报错,原因可能是网络不稳定,需要翻墙。import nltknltk.download()如果是直接下载指定的数据集,也会报错。所以只能通过本地下载的方式,可以选择在github的官方地址下载,但是太慢了。我选择的是在码云上下载,地址是:码云nltk_data链接可以下载指定需要的数据集,也可以下载所有的数据集,都在nltk_data/packages里面。下载完之后,需要放在指定的几个文件目录下面然后使用该数据集,就可以了...原创 2021-08-11 14:09:49 · 683 阅读 · 0 评论 -
RNN->LSTM->BiLSTM神经网络结构
最近在学习《自然语言处理 基于预训练模型的方法》,打打公式吧。RNN(Recurrent Neural Network)ht=tanh(Wxhxt+bxh+Whhht−1+bhh)h_t = tanh(W^{xh}x_{t}+b^{xh}+W^{hh}h_{t-1}+b^{hh})ht=tanh(Wxhxt+bxh+Whhht−1+bhh)y=softmax(Whyhn+bhy)y=softmax(W^{hy}h_{n}+b^{hy})y=softmax(Whyhn+bhy)如果是文本分类原创 2021-08-09 21:23:03 · 8867 阅读 · 1 评论 -
自然语言处理NLP概论
文章目录1 什么是NLP1.1 NLP的两大任务1 NLU 自然语言理解2 NLG 自然语言生成1.2 NLP的发展和技术路线1 基于传统机器学习的NLP流程2 基于深度学习的NLP流程3 方法路线1.3 目前研究方向2 词法分析(Lexical Analyse)2.1 分词1. 为什么需要分词?2. 中英文分词的区别3. 中文分词的难点4. 分词方法5 分词知识图谱2.2 词性标注1 什么是词性标注2 词性标注难点3 词性标注常用方法4 语料库和标注集5 语料标注工具推荐2.3 命名实体识别(NER)1原创 2021-07-23 18:18:07 · 1839 阅读 · 1 评论