python 大批量文本分词以及词频统计（高效处理案例）

最新推荐文章于 2024-06-11 11:51:15 发布

大蛇王

最新推荐文章于 2024-06-11 11:51:15 发布

阅读量1.3w

点赞数 9

分类专栏： python

本文链接：https://blog.csdn.net/t8116189520/article/details/103238744

版权

本文介绍如何使用Python高效地对大量文本进行分词和词频统计。通过结合jieba分词库和xlwings库，处理了包含100W条数据的Excel表格，避免了常规读取方式的低效问题，实现了快速的文本处理。运行结果以Excel文件形式展示，包括分词结果和词频统计。

摘要由CSDN通过智能技术生成

环境：python3.6

库：jieba，xlwt，xlwings，collections

前两天有个需求要对一张表里的中文语句进行分词，并统计每个词语出现的次数。

表格1231.xlsx大致内容如下：

由于表格内容过大，约有100W条数据，普通读取表格的方式效率非常慢，所以这次用的方法是xlwings，

xlwings是目前看来操作excel最快速、做的比较完善的一个库，优化很好，调用方式非常灵活。对读取大表格的有很高的效率

以下是完整的代码：

import jieba
import xlwt, xlrd
import xlwings as xw
from collections import Counter

# 定义一个空列表
all_word_list = []

# 分词
def trans_CN(text):
    # 接收分词的字符串
    word_list = jieba.cut(text)
    # 分词后在单独个体之间加上空格
    result = " ".join(word_list)
    # 转换成list
    result = result.split(" ")
    return result


#

最低0.47元/天解锁文章

大蛇王

关注

9
点赞
踩
136

收藏

觉得还不错? 一键收藏
10
评论
python 大批量文本分词以及词频统计（高效处理案例）

环境：python3.6库：jieba，xlwt，xlwings，collections前两天有个需求要对一张表里的中文语句进行分词，并统计每个词语出现的次数。表格1231.xlsx大致内容如下：由于表格内容过大，约有100W条数据，普通读取表格的方式效率非常慢，所以这次用的方法是xlwings，xlwings是目前看来操作excel最快速、做的比较完善的一个库，优化...
复制链接

扫一扫