在现实生活中,有时候我们可能得到一大堆无标签文本,这时候可能需要对文本进行聚类挖掘,找出热点问题是什么。
文本聚类
第一步:数据读取
import pandas as pd
import re
import jieba
csv='95598处理后.csv'
file_txt=pd.read_csv(csv, header=0,encoding='gbk')#
file_txt=file_txt.dropna()#删除空值[4229 rows x 2 columns]
print(file_txt.head())
其他格式数据读取方法
现实生活中 文本数据有可能不是表格,是txt文件。
txt读取方法链接:
python读取txt文件(多种方法)
这里简单演示下读取一个文件夹下的所有txt文件数据.
原始文件夹 一张图两个txt
import os
import re
#首先定义规则,如我们需要把所有的txt文件
pattern=re.compile(r'.+\.txt')
for root ,dirs,files in os.walk(r'C:\Users\Shineion\Desktop\新建文件夹'):
for name in files:
file_path=os.path.join(root,name)#包含路径的文件
matching=pattern.search(file_path)#匹配txt
if matching:
command_line =file_path.replace('/', '\\') #\\ 变 \
print(command_line)
f = open(command_line,encoding='utf')
data = f.readlines() # 直接将文件中按行读到list里,效果与方法2一样
f.close() # 关
print(data) # 返回list
简单演示啦下,读取出来的数据有换行符\n。需要的时候正则化处理就可以啦。