NLP术语

不定期更新(我的理解可能会有误差,若有错误还望大神赐教)

  • 词向量矩阵(非词汇表向量):word vector matrix/look-up table

  • 词向量:word vector/word embedding/word representation

  • 语料库: corpus

  • 归一化:Normalization
    将一系列的单词 转化成 某种 统一 的形式,比如:将一句话的各个单词中,有大写、有小写,将之统一转成 小写。再比如,一句话中,有些单词是 缩写词,将之统一转换成全名。
    converting characters to lowercase(大小写转换),expanding abbreviation(缩略词变成全名), removing stopwords(移除一些常见的“虚词”), stemming, and lemmatization.(词干或者词根提取)

  • alignments:匹配,对齐(用于机器翻译中)

  • non-trival:很困难,非小事

  • state-of-the-art:最先进的,前沿的

  • 远程监督(distant supervision):用来自动标注语料生成有标记的训练样本。就是把知识库与非结构化文本对齐,只要某个句子含有对应的实体对,就认为这个句子描述的就是知识库里的关系。会有严重的噪音问题。

  • OOV:out of vocabulary(一种是拼错了,一种是词太新了)

  • Fine Tune:微调 就是采用别人已经调试好的优秀网络。防止重头训练或者数据量不足。
    在这里插入图片描述
    在这里插入图片描述
    -timestep:指RNN序列的状态

  • 生成式模型与判别式模型:https://www.zhihu.com/question/35866596

  • chareembedding:基于字符的词向量,https://towardsdatascience.com/besides-word-embedding-why-you-need-to-know-character-embedding-6096a34a3b10 字符级别的一般是根据具体任务去训练,而没有预训练好的。嵌入的概念还理解,不要停留在向量的表面,不管是字符还是词,都是为了将一个空间表征到另一个空间,保持它们的距离不变而已。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值