gensim安装文本主题模型代码示例

最新推荐文章于 2023-04-29 19:09:30 发布

光英的记忆

最新推荐文章于 2023-04-29 19:09:30 发布

阅读量288

点赞数

分类专栏： gensim NLTK 文章标签： gensim

本文链接：https://blog.csdn.net/qq_29678299/article/details/90579762

版权

https://github.com/RaRe-Technologies/gensim

pip install -U gensim

代码示例

import nltk
from nltk import collections
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import csv
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
import sklearn.metrics as metrics
from sklearn import tree
from sklearn.linear_model import SGDClassifier
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans, MiniBatchKMeans
import gensim
from gensim import corpora, models, similarities
from itertools import chain
from operator import itemgetter
import re


# 文本清洗预处理
def preprocessing(text):
    # text = text.encode("gbk").decode("utf8")
    # tokons to word 句子标记解析  单词标记解析
    tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]
    # print("单词标记解析：", tokens)
    # 停用词删除
    stop = stopwords.words('english')
    tokens = [token for token in tokens if token not in stop]
    # print("停用词删除", tokens)
    # 单词字数小于3删除 并转换成小写
    tokens = [word.lower() for

最低0.47元/天解锁文章

光英的记忆

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
gensim安装文本主题模型代码示例

https://github.com/RaRe-Technologies/gensimpip install -U gensim代码示例import nltkfrom nltk import collectionsfrom nltk.corpus import stopwordsfrom nltk.stem import WordNetLem...
复制链接

扫一扫