# -*- coding: utf-8 -*-
"""
Created on Tue Mar 24 11:29:53 2020
@author: weisssun
"""
import jieba
import csv
import pandas as pd
jieba.load_userdict(r"D:\Python\dict\userdict.txt")
#加载用户词典
input_path = r'D:\Python\data\评论.xlsx'
#原始数据路径
outpath = r'D:\Python\data\评论-词数.csv'
#输出数据路径
results = []
#将结果保存在results列表中,写入csv文件
raw_data = pd.read_excel(input_path, encoding = 'utf-8')
#读取原始数据
for comment in raw_data.comment.astype(str):
#读取原始数据中的文本列,并将其转换为字符串格式
#否则jieba会报错
cut_words=[]
result = []
#print(comment)
seg_list = jieba.cut(comment,cut_all=False)
#调用jieba分词
for i in seg_list:
cut_words.append(i)
#将分词结果保存为列表
#print(cut_words)
#print(len(cut_words))
#word_freq.append(len(cut_words))
result.append(comment)
result.append(cut_words)
result.append(len(cut_words))
#将原始评论、分词结果、词数保存在列表result中
results.append(result)
#将所有result保存在列表results中
#print(results)
with open(outpath, 'w', newline='',encoding='gbk') as f:
writer = csv.writer(f)
for result in results:
writer.writerow(result)
#将结果写入csv文件,每个result是一行
用python对字符串分词,并计算词数
最新推荐文章于 2021-07-15 10:33:29 发布