python对csv文件中的数据进行分类_python处理csv文件///中文文本分类数据集,踩坑...

本文分享了在Python中对CSV文件进行数据预处理的经验,包括使用jieba和正则表达式去除特殊字符,以及处理大量TXT文件转换为CSV时遇到的问题。文章提到了使用`csv.field_size_limit(sys.maxsize)`来避免读取限制,以及在读取文件时如何巧妙获取文本长度。此外,还展示了将TXT文件内容按比例分配到训练、验证和测试数据集的代码片段。
摘要由CSDN通过智能技术生成

正文之前

好久没写了,以后写点日常总结吧,感觉不写下来,会容易忘掉一些。

9eb179faba74

很喜欢的一张壁纸,希望后面买了相机也可以拍这么好看~

正文

首先直接把我对数据预处理的一些收获贴出来:

jieba比清华的好用,不过清华的更注重整体性,比如说在一个《》包含的文件内,不会分割

最终还是选择了简单粗暴的只留下汉字,unicode编码真是简单粗暴

jieba和thulac都无法去掉,。、“”这些符号,很奇怪,所以我才选择的第二种方式

当然还有另外的方法

import re

r1 = '[a-zA-Z0-9’!",:#$%&\'(())*+,-—./:;;<=>?@。?★、…【】《》?“”‘’![\\]^_`{|}~]+●「」『』〖〗〘〙〚〛〜~⦅⦆「」〝〞〟〰〾〿□'

i = re.sub(r1,"",i)

而使用with的话,能够减少冗长,还能自动处理上下文环境产生的异常。如下面代码:

with open("2.txt") as file:

data = file.read()

上面是对清华的那个文本分类数据集做预处理的时候的一些踩的坑,八十多万个txt文件,真的搞死我。耗时最长的是删除那些零散的txt。。两

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值