使用jieba对.xls文件中的文字进行分词操作，词频统计

Captain_Thomas_L

已于 2024-09-21 20:41:23 修改

阅读量161

点赞数 2

文章标签： python 大数据

于 2024-09-21 20:24:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Captain_Thomas_L/article/details/142423277

版权

首先安装必要的包：

pip install xlrd jieba

代码如下：

import xlrd  
import jieba  
from collections import Counter  
  
def read_xls_and_analyze(file_path):  
    # 打开xls文件  
    workbook = xlrd.open_workbook(file_path)  
    sheet = workbook.sheet_by_index(0)  # 假设我们处理第一个工作表  
  
    # 初始化一个列表来存储所有的中文分词  
    all_words = []  
  
    # 遍历所有行和列  
    for row_idx in range(sheet.nrows):  
        for col_idx in range(sheet.ncols):  
            cell_value = sheet.cell_value(row_idx, col_idx)  
            # 检查单元格值是否为字符串  
            if isinstance(cell_value, str):  
                # 提取中文文本  
                chinese_text = ''.join(char for char in cell_value if '\u4e00' <= char <= '\u9fff')  
                if chinese_text:  # 如果存在中文文本  
                    # 使用jieba进行分词  
                    words = jieba.lcut(chinese_text)  
                    all_words.extend(words)  # 将分词结果添加到列表中  
  
    # 使用Counter进行词频统计  
    word_counts = Counter(all_words)  
  
    # 打印词频统计结果  
    for word, count in word_counts.most_common():  
        print(f"{word}: {count}")  
  
# 使用示例  
file_path = r'C:\Users\admin\Desktop\gen500+sep500-eval.xls'  # 使用原始字符串  
read_xls_and_analyze(file_path)

结果：

Captain_Thomas_L

博客等级

码龄3年

16
原创

45
点赞

13
收藏

44
粉丝

关注

私信

热门文章

最新评论

Java压缩流批量压缩文件上传至网盘
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java
用Python numpy实现非线性回归
CSDN-Ada助手: 恭喜您在博客上分享了如此有趣的主题“用Python numpy实现非线性回归”！持续创作是非常了不起的，希望您能继续分享更多关于数据分析和机器学习的内容。或许下一步可以尝试介绍一些高级的数据处理技巧或者深入探讨一些机器学习算法的原理呢？期待您更多精彩的文章！
scrapy_redis存数据到redis中文乱码问题
CSDN-Ada助手: 恭喜博主写了第6篇博客！关于scrapy_redis存数据到redis中文乱码问题的探讨非常有价值。建议在下一篇博客中可以尝试探讨如何优化存储数据到redis的方法，或者分享一些关于scrapy_redis的其他问题解决方案。期待您继续创作，为大家带来更多有用的内容！愿您的博客越来越受欢迎！
scrapy框架爬虫报错UnicodeDecodeError
CSDN-Ada助手: 恭喜您写了第三篇博客！对于遇到的scrapy框架爬虫报错UnicodeDecodeError问题，您已经积极解决并分享了经验，非常棒！希望您能继续保持写作的热情和耐心，不断学习和探索，为读者带来更多有价值的内容。在下一步的创作中，或许可以尝试深入探讨一些高级技术或者结合实际案例进行分析，让读者受益更多。期待您的更多精彩作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Pycharm scrapy框架爬取gbk编码方式的网站数据写入txt文件乱码
CSDN-Ada助手: 恭喜用户发布了第四篇博客！看到您在Pycharm scrapy框架中遇到了编码问题并成功解决，实在是太棒了！不过在下一步的创作中，或许可以尝试探索其他编码方式或者使用编码转换工具来避免乱码问题，这样可以提升文章的质量和可读性。期待您的下一篇作品，加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。