如何去掉文本中的标点符号

从网下爬下来的tweet,好多乱起八糟的符号啊。。。ノ)゚Д゚( 

先来去一波符号hhh~~~

去掉中文符号和英文符号的代码差不多,可以直接在英文符号上补充~

补充利用String模块中的常量:
string.digits:数字0~9
string.letters:所有字母(大小写)
string.lowercase:所有小写字母
string.printable:可打印字符的字符串
string.punctuation:所有标点

string.uppercase:所有大写字母

# -*- coding: utf-8 -*-

import re
import sys
reload(sys)

# import英文字符
from string import punctuation
# 如果是汉字,就用  from zhon.hanzi import punctuation
sys.setdefaultencoding('utf-8')
import codecs
# String模块中的常量:
# string.digits:数字0~9
# string.letters:所有字母(大小写)
# string.lowercase:所有小写字母
# string.printable:可打印字符的字符串
# string.punctuation:所有标点
# string.uppercase:所有大写字母

# add_punc补充一些punctuation中没有的标点
add_punc = '.,;《》?!’ ” “”‘’@#¥% … &×()——+【】{};;●,。&~、|\s::'
punc = punctuation + add_punc
print punc

fr = codecs.open('/Users/caixiaoniao/Desktop/test.txt', encoding='utf-8')
fw = codecs.open('/Users/caixiaoniao/Desktop/test 5.txt', 'w', encoding='utf-8')

# 利用正则表达式替换为一个空格
for line in fr:
    line = re.sub(r"[{}]+".format(punc)," ",line)
    fw.write(line+' ')

fr.close()
fw.close()
[我是个小透明——大家都忙着准备签证,啥都没怎么弄的我,好紧张(ಥ_ಥ)]
  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值