【自然语言处理】算法笔试系列一：

最新推荐文章于 2024-04-21 09:27:52 发布

NLP小姐姐

最新推荐文章于 2024-04-21 09:27:52 发布

阅读量1.1k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_43439235/article/details/105324549

版权

词频－逆向文件频率（TF-IDF） ：它可以体现一个文档中词语在语料库中的重要程度。
Word2Vec ：是一个Estimator，它采用一系列代表文档的词语来训练word2vec model。该模型将每个词语映射到一个固定大小的向量。word2vec model使用文档中每个词语的平均数来将文档转换为向量，然后这个向量可以作为预测的特征，来计算文档相似度计算等等。
Countvectorizer：旨在通过计数来将一个文档转换为向量。当不存在先验字典时，Countvectorizer可作为Estimator来提取词汇，并生成一个Countvectorizer model。该模型产生文档关于词语的稀疏表示，其表示可以传递给其他算法如LDA。CountVectorizer 类会将文档全部转换成小写，然后将文档词块化(tokenize).文档词块化是把句子分割成词块（token）或有意义的字母序列的过程。
文档频率、信息增益、互信息、X^2统计等。

中文主要有：NLTK，FoolNLTK，HanLP（java版本），pyhanlp（python版本），Ansj，THULAC，Jieba分词，FNLP，哈工大LTP，中科院ICTCLAS分词，GATE，SnowNLP，东北大学NiuTrans，NLPIR，；

英文主要有：NLTK，Genism，TextBlob，Stanford NLP，Spacy。英文的开源NLP工具主要参见StackoverFlow-java or python for nlp。

具体介绍如下：

关注