NLP词汇解释

NLP名词

  • 多特征融合:采用现有的多个特征集生成新的融合特征

  • 特征工程:特征提取、特征降维、特征融合等

  • 低资源:资源比较少

  • 双向注意力机制:

  • 注意力机制:

  • 关键词生成方法:抽取式方法和生成式方法

  • ResNet

  • 双向RNN
    在这里插入图片描述

  • RNN
    在这里插入图片描述
    在这里插入图片描述

  • LSTM
    - [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jCEthFIe-1668564252318)(C:\Users\zss\AppData\Roaming\Typora\typora-user-images\image-20221115201300849.pn)]

  • GRU
    在这里插入图片描述

  • Reformer

  • performer

  • Sinkhorn

  • Local Attention

  • Synthesizer

  • Linear Transformer

  • informer

  • swin transformers

  • seq2seq(sequence-to-sequence):解决不等长序列的问题

  • syntactic parsing

  • multi-class classification

  • multi-label classification

  • 交叉信息熵

  • 归一化:

  • AT Decoder

  • ANT Decoder

  • 向量维度越大,点乘方差越大

  • transformer 中Add 借鉴了残差网络,防止退化

  • 残差网络

  • norm 对向量进行标准化,达到加速收敛

  • 特征提取

  • 模式识别

  • gpt-3:基于深度学习原理的语言预测模型(decoder 聚焦于生成)

  • bert (encoder 聚焦于提取,抽取,简化)

  • Alphacode(生成代码) AlphaGo(下围棋) AlphaFoLD(蛋白质结构)

  • pytorch中的storage指的是连续的内存块,而tensor则是映射到storage的视图,他把单条的内存区域映射成了n维的空间视图。

信息抽取研究方向

  • 信息抽取:命名实体识别、指代消解、关系抽取和事件抽取
  • 命名实体识别(NER):是信息
    抽取的基础性工作,其任务是从文本中识别出诸如人名、组织名、日期、时间、地点、特定的数字形式等内容,并为之添加相应的标注信息,为信息抽取后续工作提供便利
  • 指代消解:回指,共指,简化思维
  • 关系抽取:获取文本中实体之间存在的语法或语义上的联系
  • 事件抽取:含有事件信息的非结构化文本中抽取出用户感兴趣的事件信息,将用自然语言表达的事件以结构化的形式呈现出来。
  • KDD : 帮助人类从大量数字化数据中提取有用和以前未知的信息 (即知识)的工具和理论。
  • 特征维度:
  • 元事件抽取:基础级,一次动作或状态
  • 主题事件抽取:围绕某一确定主题抽取事件,多类元事件组成
  • 触发词:触发事件的词,触发事件的核心词
  • 事件论元:与事件相关的实体和实体属性,包括时间、地点、人物等,事件的参与者
  • 论元角色:实体在事件中扮演的角色的信息
  • 事件抽取数据集:ACE2005,TAC KBP 2017和 MUC-4等数据集是通用领域常用的数据集。
    在这里插入图片描述
  • 事件抽取方法的总结
  • 事件抽取模式匹配方法:首先,通过词法分析和句法分析等局部文本分析得到事件模式抽取库;然后,在事件模式的指导下,将待抽取的事件句子与相应的模式进行匹配,从而对某种事件类型进行检测和抽取
    在这里插入图片描述
  • 有监督:用有标签的数据训练;
  • 无监督:用无标签的数据训练;
  • 半监督:同时用有标签和无标签的数据进行训练。最近非常火热,此领域的发展也非常迅速,先前通常是两阶段的训练,先用(较小规模的)有标签数据训练一个Teacher模型,再用这个模型对(较大规模的)无标签数据预测伪标签,作为Student模型的训练数据;目前已经有很多直接end-to-end地训练,大大减少半监督训练的工作;
  • 自监督:在无标注数据上训练,通过一些方法让模型学习到数据的inner representation,再接下游任务,例如加一个mlp作为分类器等。但接了下游任务之后还是需要在特定的有标签数据上finetune,只是有时候可以选择把前面的层完全固定,只finetune后面接的网络的参数。
  • 弱监督:用包含噪声的有标签数据训练。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值