NLP术语

最新推荐文章于 2024-06-19 02:34:44 发布

KODGV

最新推荐文章于 2024-06-19 02:34:44 发布

阅读量240

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/qq_34661230/article/details/85989323

版权

NLP 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

不定期更新(我的理解可能会有误差，若有错误还望大神赐教)

词向量矩阵（非词汇表向量）：word vector matrix/look-up table
词向量：word vector/word embedding/word representation
语料库: corpus
归一化：Normalization
将一系列的单词转化成某种统一的形式，比如：将一句话的各个单词中，有大写、有小写，将之统一转成小写。再比如，一句话中，有些单词是缩写词，将之统一转换成全名。
converting characters to lowercase（大小写转换）,expanding abbreviation（缩略词变成全名）, removing stopwords（移除一些常见的“虚词”）, stemming, and lemmatization.（词干或者词根提取）
alignments:匹配，对齐(用于机器翻译中)
non-trival:很困难，非小事
state-of-the-art:最先进的，前沿的
远程监督（distant supervision）：用来自动标注语料生成有标记的训练样本。就是把知识库与非结构化文本对齐，只要某个句子含有对应的实体对，就认为这个句子描述的就是知识库里的关系。会有严重的噪音问题。
OOV：out of vocabulary(一种是拼错了，一种是词太新了)
Fine Tune:微调就是采用别人已经调试好的优秀网络。防止重头训练或者数据量不足。

-timestep:指RNN序列的状态
生成式模型与判别式模型：https://www.zhihu.com/question/35866596
chareembedding:基于字符的词向量，https://towardsdatascience.com/besides-word-embedding-why-you-need-to-know-character-embedding-6096a34a3b10 字符级别的一般是根据具体任务去训练，而没有预训练好的。嵌入的概念还理解，不要停留在向量的表面，不管是字符还是词，都是为了将一个空间表征到另一个空间，保持它们的距离不变而已。