从网下爬下来的tweet,好多乱起八糟的符号啊。。。ノ)゚Д゚(
先来去一波符号hhh~~~
去掉中文符号和英文符号的代码差不多,可以直接在英文符号上补充~
补充利用String模块中的常量:
string.digits:数字0~9
string.letters:所有字母(大小写)
string.lowercase:所有小写字母
string.printable:可打印字符的字符串
string.punctuation:所有标点
string.uppercase:所有大写字母
# -*- coding: utf-8 -*-
import re
import sys
reload(sys)
# import英文字符
from string import punctuation
# 如果是汉字,就用 from zhon.hanzi import punctuation
sys.setdefaultencoding('utf-8')
import codecs
# String模块中的常量:
# string.digits:数字0~9
# string.letters:所有字母(大小写)
# string.lowercase:所有小写字母
# string.printable:可打印字符的字符串
# string.punctuation:所有标点
# string.uppercase:所有大写字母
# add_punc补充一些punctuation中没有的标点
add_punc = '.,;《》?!’ ” “”‘’@#¥% … &×()——+【】{};;●,。&~、|\s::'
punc = punctuation + add_punc
print punc
fr = codecs.open('/Users/caixiaoniao/Desktop/test.txt', encoding='utf-8')
fw = codecs.open('/Users/caixiaoniao/Desktop/test 5.txt', 'w', encoding='utf-8')
# 利用正则表达式替换为一个空格
for line in fr:
line = re.sub(r"[{}]+".format(punc)," ",line)
fw.write(line+' ')
fr.close()
fw.close()
[我是个小透明——大家都忙着准备签证,啥都没怎么弄的我,好紧张(ಥ_ಥ)]