原数据:文本,一行为一个评论
处理的目的:目标数据:每条评论去掉停词,留下关键词。不同评论依然按行分开
原数据的评论text:
开机有点烦锁,联网时有些软件会自动下载安装!!
今天拿的货 电脑很好完美屏 开始还担心屏幕有坏点 屏幕没问题 好评
感觉应该是正品,键盘的触感很好,屏幕画质清晰,看电视很舒服!散热很好,没有机子发热的情况!
obj = []
with open(txt, 'r', encoding='utf8') as f:
i = 0
for line in f:
for w in jieba.cut(line.strip()):
obj.append([])
if w not in stopwords and w != ' ':
obj.append(w)
i += 1
经过处理,可以变成一个矩阵,不同行的评论依旧在不同的行。而不是一个一维的向量,全部都连在一起。