python中文文本聚类_Python3文本聚类如何进行分类操作？

最新推荐文章于 2024-08-16 09:28:16 发布

zqk666m~~

最新推荐文章于 2024-08-16 09:28:16 发布

阅读量1.3k

点赞数

文章标签： python中文文本聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28974337/article/details/113968877

版权

本文介绍了一种使用Python进行中文文本聚类的方法，通过切词、去除停用词、构建词袋空间和应用K-means算法，实现快速且准确的分类。详细步骤包括自定义停词表、读取和分词文件、转换为词向量以及执行聚类。这种方法对于处理大量文本数据的分类任务非常有效。

摘要由CSDN通过智能技术生成

当我们想要给表格中的内容进行分类，一般人想到的是excel中的做法。那还有没有什么特别好的解决办法呢？小编觉得python中的文本聚类文本聚类不错，分类的速度比较快，而且不会以出现分类混乱的问题。小编整理了有关文本聚类用来分类的代码，分享给小伙伴们一起尝试一下。

主要有一下几个步骤：

切词

去除停用词

构建词袋空间VSM(vector space model)

TF-IDF构建词权重，这部我没有做，因为我的数据基本都是一类的，只是想细分，所以感觉不太适合，而且这个也有点难(捂脸)

使用K-means算法

下面开始代码部分：#引入基础库，在网上抄的代码，除了1、2、6，其他的可能用不到

import numpy as np

import pandas as pd

import re

import os

import codecs

import jieba

#打开文件，文件在桌面上，可以自行修改路径

f1=open("C:/Users/KangB/Desktop/wechat7/title.txt","r",encoding='GB2312',errors='ignore')

f2=open("C:/Users/KangB/Desktop/wechat7/title_fenci.txt",'w',encoding='GB2312',errors='ignore')

for line in f1:

seg_list = jieba.cut(line, cut_all=False)

f2.write((" ".join(seg_list)).replace("\t\t\t","\t"))

#print(w)

f1.close()

f2.close()

#取需要分词的内容

titles=open("C:/Users/KangB/Desktop/wechat7/title_fenci.txt",encoding='GB2312',errors='ignore').read().split('\n')

#查看内容，这里是一个list,list里面每个原素是分好的标题，查看下长度看有没有错误

#titles

#len(titles)

#构建停词函数，停词表是自己在网上搜的

def get_custom_stopwords(stop_words_file):

with open(stop_words_file,encoding='utf-8')as f:

stopwords=f.read()

stopwords_list=stopwords.split('\n')

custom_stopwords_list=[i for i in stopwords_list]

return custom_stopwords_list

#停用词函数调用

stop_words_file="C:/Users/KangB/Desktop/wechat7/stopwords.txt"

stopwords=get_custom_stopwords(stop_words_file)

#查看停用词，也是list格式

#stopwords

#构建词向量，也就是把分好的次去除停词转化成kmeans可以接受的形式

from sklearn.feature_extraction.text import CountVectorizer

count_vec=CountVectorizer(stop_words=stopwords)

km_matrix= count_vec.fit_transform(titles)

print(km_matrix.shape)

#查看词向量

#print(km_matrix.toarray())

#开始聚类啦

from sklearn.cluster import KMeans

num_clusters = 4 #聚为四类，可根据需要修改

km = KMeans(n_clusters=num_clusters)

km.fit(km_matrix)

clusters = km.labels_.tolist()

#查看聚类的结果，是list,这里省略，看看长度是不是和title一样就行啦

#len(clusters)

#最后把聚类结果写在一个新的txt里面

f3 =open("C:/Users/KangB/Desktop/wechat7/title_clusters.txt", 'w',encoding='GB2312',errors='ignore')

for i in clusters:

f3.write(str(i))

f3.write("\n")

f3.close()

最后把原始数据title和聚类结果title_clusters在一个excel里面不同列打开就可以啦。

不知道有没有小伙伴们试了文本聚类的分类方法，是不是跟小编说的一样好用呢？小编相信试过的小伙伴，肯定下次还会使用这种分类方法的。

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。