特征工程
目录
一、自动分词
1.词根提取与词形还原
2.词性标注
3.句法分析
其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。
PS:工具包NLTK(natual language toolkit)、Text Processing API、TextBlob、中文jieba
二、向量空间模型及文本相似度计算
1.文档的向量化表示
2.停用词
3.N-gram模型
4.文档之间的欧式距离
5.文档之间的余弦相似度
6.TF-iDF词条权重计算?????
TF是词频 (Term Frequency),IDF是逆文本频率指数。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。