python文本热点问题挖掘_基于聚类算法的文本热点问题挖掘算例实现（文本聚类）...

最新推荐文章于 2024-03-09 14:12:32 发布

彩彩彩虹

最新推荐文章于 2024-03-09 14:12:32 发布

阅读量855

点赞数

文章标签： python文本热点问题挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32432759/article/details/113983219

版权

本文介绍了使用Python进行文本热点问题挖掘的过程，通过文本聚类算法（KMeans）来实现。内容包括数据读取、预处理、TF-IDF特征提取、手肘法选择聚类数、绘制词云图等步骤，旨在揭示文本中的热点话题。

摘要由CSDN通过智能技术生成

在现实生活中，有时候我们可能得到一大堆无标签文本，这时候可能需要对文本进行聚类挖掘，找出热点问题是什么。

文本聚类

第一步：数据读取

import pandas as pd

import re

import jieba

csv='95598处理后.csv'

file_txt=pd.read_csv(csv, header=0,encoding='gbk')#

file_txt=file_txt.dropna()#删除空值[4229 rows x 2 columns]

print(file_txt.head())

其他格式数据读取方法

现实生活中文本数据有可能不是表格，是txt文件。

txt读取方法链接：

python读取txt文件(多种方法)

这里简单演示下读取一个文件夹下的所有txt文件数据.

原始文件夹一张图两个txt

import os

import re

#首先定义规则，如我们需要把所有的txt文件

pattern=re.compile(r'.+\.txt')

for root ,dirs,files in os.walk(r'C:\Users\Shineion\Desktop\新建文件夹'):

for name in files:

file_path=os.path.join(root,name)#包含路径的文件

matching=pattern.search(file_path)#匹配txt

if matching:

command_line =file_path.replace('/', '\\') #\\ 变 \

print(command_line)

f = open(command_line,encoding='utf')

data = f.readlines() # 直接将文件中按行读到list里，效果与方法2一样

f.close() # 关

print(data) # 返回list

简单演示啦下，读取出来的数据有换行符\n。需要的时候正则化处理就可以啦。

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。