数据挖掘文本分类（三）本地文档分词再保存到本地

最新推荐文章于 2023-10-07 22:46:06 发布

Carry_yang

最新推荐文章于 2023-10-07 22:46:06 发布

阅读量3.6k

点赞数

分类专栏：大数据数据挖掘文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangshaoby/article/details/41980209

版权

这篇博文介绍了如何利用Python的nlpir库对本地TXT文档进行分词操作。作者参照廖雪峰老师的教程，实现了读取TXT文件，进行分词处理，然后将分词结果保存到新的TXT文件中，以此演示了文本处理的基本流程。

摘要由CSDN通过智能技术生成

上一篇博文中，我们跑通了分词工具的示例文件，下面我们就要开始用分词工具尝试对我们之前准备的搜狗语料库里的文本文件进行分词了。

首先我们来看nlpir.py文件代码：

能看出来，只要我们把想要分词的中文文章以字符串的形式传递给p，然后通过调用相关的函数就能实现分词，并且分词结果可以输出。

这时，就要考虑python读入和输出文本文件的问题了。

根据廖雪峰老师的教程：http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386820066616a77f826d876b46b9ac34cb5f34374f7a000

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。