# -*- coding: utf-8 -*-
"""
Created on Thu Nov 16 10:08:52 2017
@author: li-pc
"""
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
def jieba_tokenize(text):
return jieba.lcut(text)
tfidf_vectorizer = TfidfVectorizer(tokenizer=jieba_tokenize, lowercase=False)
'''
tokenizer: 指定分词函数
lowercase: 在分词之前将所有的文本转换成小写,因为涉及到中文文本处理,
所以最好是False
''&#
【文本聚类】用k-means对文本进行聚类
最新推荐文章于 2024-08-05 10:55:11 发布