1. 请列出几种文本特征提取算法:
- 词频-逆向文件频率(TF-IDF) :它可以体现一个文档中词语在语料库中的重要程度。
- Word2Vec :是一个Estimator,它采用一系列代表文档的词语来训练word2vec model。该模型将每个词语映射到一个固定大小的向量。word2vec model使用文档中每个词语的平均数来将文档转换为向量,然后这个向量可以作为预测的特征,来计算文档相似度计算等等。
- Countvectorizer:旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个Countvectorizer model。该模型产生文档关于词语的稀疏表示,其表示可以传递给其他算法如LDA。CountVectorizer 类会将文档全部转换成小写,然后将文档词块化(tokenize).文档词块化是把句子分割成词块(token)或有意义的字母序列的过程。
- 文档频率、信息增益、互信息、X^2统计等。
2. 简述几种自然语言处理开源工具包:
中文主要有:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,Jieba分词,FNLP,哈工大LTP,中科院ICTCLAS分词,GATE,SnowNLP,东北大学NiuTrans,NLPIR,;
英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp。
具体介绍如下: