gensim安装 文本主题模型代码示例

 

https://github.com/RaRe-Technologies/gensim

pip install -U gensim

 

 

代码示例

 

 

import nltk
from nltk import collections
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import csv
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
import sklearn.metrics as metrics
from sklearn import tree
from sklearn.linear_model import SGDClassifier
from sklearn.svm import LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans, MiniBatchKMeans
import gensim
from gensim import corpora, models, similarities
from itertools import chain
from operator import itemgetter
import re


# 文本清洗预处理
def preprocessing(text):
    # text = text.encode("gbk").decode("utf8")
    # tokons to word 句子标记解析  单词标记解析
    tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]
    # print("单词标记解析:", tokens)
    # 停用词删除
    stop = stopwords.words('english')
    tokens = [token for token in tokens if token not in stop]
    # print("停用词删除", tokens)
    # 单词字数小于3删除 并转换成小写
    tokens = [word.lower() for 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值