不定期更新(我的理解可能会有误差,若有错误还望大神赐教)
-
词向量矩阵(非词汇表向量):word vector matrix/look-up table
-
词向量:word vector/word embedding/word representation
-
语料库: corpus
-
归一化:Normalization
将一系列的单词 转化成 某种 统一 的形式,比如:将一句话的各个单词中,有大写、有小写,将之统一转成 小写。再比如,一句话中,有些单词是 缩写词,将之统一转换成全名。
converting characters to lowercase(大小写转换),expanding abbreviation(缩略词变成全名), removing stopwords(移除一些常见的“虚词”), stemming, and lemmatization.(词干或者词根提取) -
alignments:匹配,对齐(用于机器翻译中)
-
non-trival:很困难,非小事
-
state-of-the-art:最先进的,前沿的
-
远程监督(distant supervision):用来自动标注语料生成有标记的训练样本。就是把知识库与非结构化文本对齐,只要某个句子含有对应的实体对,就认为这个句子描述的就是知识库里的关系。会有严重的噪音问题。
-
OOV:out of vocabulary(一种是拼错了,一种是词太新了)
-
Fine Tune:微调 就是采用别人已经调试好的优秀网络。防止重头训练或者数据量不足。
-timestep:指RNN序列的状态 -
生成式模型与判别式模型:https://www.zhihu.com/question/35866596
-
chareembedding:基于字符的词向量,https://towardsdatascience.com/besides-word-embedding-why-you-need-to-know-character-embedding-6096a34a3b10 字符级别的一般是根据具体任务去训练,而没有预训练好的。嵌入的概念还理解,不要停留在向量的表面,不管是字符还是词,都是为了将一个空间表征到另一个空间,保持它们的距离不变而已。