NLP基础知识
1.词干提取:
词干提取是将词语除去变化或者衍生形式,转化为词干或原型形式的过程。词干提取的目标是将相关词语还原为同样的词干,哪怕词干并非词典的词目。
相关算法:Martin Porter 的波特词干算法:Porter2
2.词形还原:
词性还原是将一组词语还原为词源或词典的词目形式的过程。还原过程考虑了POS问题,即词语在句中的语义,词语对相邻语句的语义等。
3.词向量化
词向量化是用一组实数构成的向量代表自然语言的叫法。这种技术非常实用因为电脑无法处理自然语言。词向量化可以捕捉到自然语言和实数间的本质关系。通过词向量化,一个词语或者一段短语可以用一个定维的向量表示。
4.词性标注:
词性标注就是对句子中的词语标注为名字、动词、形容词、副词等的过程。