去除文本符号的Python技巧-CSDN博客

本文链接：https://blog.csdn.net/kaka_caroline/article/details/79998632

从网下爬下来的tweet，好多乱起八糟的符号啊。。。ﾉ)ﾟДﾟ(

先来去一波符号hhh~~~

去掉中文符号和英文符号的代码差不多，可以直接在英文符号上补充~

补充利用String模块中的常量：
string.digits：数字0~9
string.letters：所有字母（大小写）
string.lowercase：所有小写字母
string.printable：可打印字符的字符串
string.punctuation：所有标点

string.uppercase：所有大写字母

# -*- coding: utf-8 -*-

import re
import sys
reload(sys)

# import英文字符
from string import punctuation
# 如果是汉字，就用  from zhon.hanzi import punctuation
sys.setdefaultencoding('utf-8')
import codecs
# String模块中的常量：
# string.digits：数字0~9
# string.letters：所有字母（大小写）
# string.lowercase：所有小写字母
# string.printable：可打印字符的字符串
# string.punctuation：所有标点
# string.uppercase：所有大写字母

# add_punc补充一些punctuation中没有的标点
add_punc = '.,;《》？！’ ” “”‘’@#￥% … &×（）——+【】{};；●，。&～、|\s:：'
punc = punctuation + add_punc
print punc

fr = codecs.open('/Users/caixiaoniao/Desktop/test.txt', encoding='utf-8')
fw = codecs.open('/Users/caixiaoniao/Desktop/test 5.txt', 'w', encoding='utf-8')

# 利用正则表达式替换为一个空格
for line in fr:
    line = re.sub(r"[{}]+".format(punc)," ",line)
    fw.write(line+' ')

fr.close()
fw.close()