python对csv文件中的数据进行分类_python处理csv文件///中文文本分类数据集，踩坑...

weixin_39647977

于 2020-11-22 21:29:27 发布

阅读量1.2k

点赞数

文章标签： python对csv文件中的数据进行分类

本文分享了在Python中对CSV文件进行数据预处理的经验，包括使用jieba和正则表达式去除特殊字符，以及处理大量TXT文件转换为CSV时遇到的问题。文章提到了使用`csv.field_size_limit(sys.maxsize)`来避免读取限制，以及在读取文件时如何巧妙获取文本长度。此外，还展示了将TXT文件内容按比例分配到训练、验证和测试数据集的代码片段。

摘要由CSDN通过智能技术生成

正文之前

好久没写了，以后写点日常总结吧，感觉不写下来，会容易忘掉一些。

9eb179faba74

很喜欢的一张壁纸，希望后面买了相机也可以拍这么好看~

正文

首先直接把我对数据预处理的一些收获贴出来：

jieba比清华的好用，不过清华的更注重整体性，比如说在一个《》包含的文件内，不会分割

最终还是选择了简单粗暴的只留下汉字，unicode编码真是简单粗暴

jieba和thulac都无法去掉，。、“”这些符号，很奇怪，所以我才选择的第二种方式

当然还有另外的方法

import re

r1 = '[a-zA-Z0-9’!"，：#$%&\'(（）)*+,-—./:;；<=>?@。?★、…【】《》？“”‘’！[\\]^_`{|}~]+●「」『』〖〗〘〙〚〛〜～｟｠｢｣〝〞〟〰〾〿□'

i = re.sub(r1,"",i)

而使用with的话，能够减少冗长，还能自动处理上下文环境产生的异常。如下面代码：

with open("2.txt") as file:

data = file.read()

上面是对清华的那个文本分类数据集做预处理的时候的一些踩的坑，八十多万个txt文件，真的搞死我。耗时最长的是删除那些零散的txt。。两

最低0.47元/天解锁文章

weixin_39647977

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。