【机器学习】K-means聚类，升级版，tf-idf+PCA降维+k-means，python

最新推荐文章于 2024-05-03 21:06:41 发布

HelenLee01

最新推荐文章于 2024-05-03 21:06:41 发布

阅读量3.2k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43289135/article/details/104608728

版权

这篇博客介绍了如何使用TF-IDF进行文本特征提取，接着通过PCA进行降维处理，最后应用k-means算法进行聚类。作者分享了一段非原创的代码实现，并指出在降维阶段可能存在bug，计划后期修复。

摘要由CSDN通过智能技术生成

升级版K-means聚类：tf-idf+PCA降维+k-means，代码传送门：

# coding:utf-8
 
# 2.0 使用jieba进行分词,彻底放弃低效的NLPIR,用TextRank算法赋值权重(实测textrank效果更好)
# 2.1 用gensim搞tfidf
# 2.2 sklearn做tfidf和kmeans
# 2.3 将kmeans改成BIRCH,使用传统tfidf
 
import logging
import time
import os
import jieba
import glob
import random
import copy
import chardet
import gensim
import matplotlib.pyplot as plt
from gensim import corpora,similarities, models
from pprint import pprint
import jieba.analyse
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
import os
from sklearn.decomposition import PCA
 
 

start = time.clock()
 
print( '#----------------------------------------#')
print( '#                                        #')
print( '#             分词+去停用词               #')
print( '#                                        #')
print( '#----------------------------------------#\n')
def DeleteStopWords(data, stopWords):
 
    wordList = []
 
    # 先分一下词
    cutWords = jieba.cut(data)
    for item in cutWords:
        if item.encode('utf-8') not in stopWords: # 分词编码要和停用词编码一致
            wordList.append(item)
 
    return wordList
 
 
print( '#----------------------------------------#')
print( '#                                        #')
print( '#                 tf-idf                 #')
print( '#                                        #')
print( '#-------------------