1 jieba
分词
2 pyltp
段落分句,
3 transformers
分词
抽取文本中token的嵌入表示,隐藏特征,平均得到句向量等
4 re
邮箱抽取,规则
5 collections
词频统计,文本纠错
6 sklearn
metrics.pairwise.cosine_similarity :文本的余弦相似度,
feature_extraction.text.CountVectorizer: 向量化表示
feature_extraction.text.TfidfVectorizer : TF-IDF
TruncatedSVD:LSA模型抽取主题词
7 pymagnitude
近义词查找
8 gensim
LDA抽取主题词:LdaModel
Doc2Vec训练模型:获取优于word2vec的语句表示
Phraser抽取bigrams(双词组合)
9 SnowNLP
情感正负面倾向分析
10 nltk
ngrams创建bigrams,trigrams
11 jiayan
处理文言文
12 eldar
基于关键词的布尔逻辑组合来精确检索信息