正文之前
好久没写了,以后写点日常总结吧,感觉不写下来,会容易忘掉一些。
很喜欢的一张壁纸,希望后面买了相机也可以拍这么好看~
正文
首先直接把我对数据预处理的一些收获贴出来:
jieba比清华的好用,不过清华的更注重整体性,比如说在一个《》包含的文件内,不会分割
最终还是选择了简单粗暴的只留下汉字,unicode编码真是简单粗暴
jieba和thulac都无法去掉,。、“”这些符号,很奇怪,所以我才选择的第二种方式
当然还有另外的方法
import re
r1 = '[a-zA-Z0-9’!",:#$%&\'(())*+,-—./:;;<=>?@。?★、…【】《》?“”‘’![\\]^_`{|}~]+●「」『』〖〗〘〙〚〛〜~⦅⦆「」〝〞〟〰〾〿□'
i = re.sub(r1,"",i)
而使用with的话,能够减少冗长,还能自动处理上下文环境产生的异常。如下面代码:
with open("2.txt") as file:
data = file.read()
上面是对清华的那个文本分类数据集做预处理的时候的一些踩的坑,八十多万个txt文件,真的搞死我。耗时最长的是删除那些零散的txt。。两