环境:python3.6
库:jieba,xlwt,xlwings,collections
前两天有个需求要对一张表里的中文语句进行分词,并统计每个词语出现的次数。
表格1231.xlsx大致内容如下:
由于表格内容过大,约有100W条数据,普通读取表格的方式效率非常慢,所以这次用的方法是xlwings,
xlwings是目前看来操作excel最快速、做的比较完善的一个库,优化很好,调用方式非常灵活。对读取大表格的有很高的效率
以下是完整的代码:
import jieba
import xlwt, xlrd
import xlwings as xw
from collections import Counter
# 定义一个空列表
all_word_list = []
# 分词
def trans_CN(text):
# 接收分词的字符串
word_list = jieba.cut(text)
# 分词后在单独个体之间加上空格
result = " ".join(word_list)
# 转换成list
result = result.split(" ")
return result
#