python文本热点问题挖掘_基于聚类算法的文本热点问题挖掘算例实现(文本聚类)...

本文介绍了使用Python进行文本热点问题挖掘的过程,通过文本聚类算法(KMeans)来实现。内容包括数据读取、预处理、TF-IDF特征提取、手肘法选择聚类数、绘制词云图等步骤,旨在揭示文本中的热点话题。
摘要由CSDN通过智能技术生成

在现实生活中,有时候我们可能得到一大堆无标签文本,这时候可能需要对文本进行聚类挖掘,找出热点问题是什么。

文本聚类

第一步:数据读取

import pandas as pd

import re

import jieba

csv='95598处理后.csv'

file_txt=pd.read_csv(csv, header=0,encoding='gbk')#

file_txt=file_txt.dropna()#删除空值[4229 rows x 2 columns]

print(file_txt.head())

0afc829e03146360888445e90d5548b9.png

其他格式数据读取方法

现实生活中 文本数据有可能不是表格,是txt文件。

txt读取方法链接:

python读取txt文件(多种方法)

这里简单演示下读取一个文件夹下的所有txt文件数据.

原始文件夹 一张图两个txt

d0e776df77468099d0e97ceeb1946774.png

import os

import re

#首先定义规则,如我们需要把所有的txt文件

pattern=re.compile(r'.+\.txt')

for root ,dirs,files in os.walk(r'C:\Users\Shineion\Desktop\新建文件夹'):

for name in files:

file_path=os.path.join(root,name)#包含路径的文件

matching=pattern.search(file_path)#匹配txt

if matching:

command_line =file_path.replace('/', '\\') #\\ 变 \

print(command_line)

f = open(command_line,encoding='utf')

data = f.readlines() # 直接将文件中按行读到list里,效果与方法2一样

f.close() # 关

print(data) # 返回list

简单演示啦下,读取出来的数据有换行符\n。需要的时候正则化处理就可以啦。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值