python处理中文标点符号_Python从unicode字符串中删除标点符号(撇号除外)

我找到了其中的几个主题,并找到了这个解决方案:sentence=re.sub(ur"[^\P{P}'|-]+",'',sentence)

这应该去掉所有的标点符号,除了',问题是它也从句子中去掉了其他的东西。

示例:>>> sentence="warhol's art used many types of media, including hand drawing, painting, printmaking, photography, silk screening, sculpture, film, and music."

>>> sentence=re.sub(ur"[^\P{P}']+",'',sentence)

>>> print sentence

'

当然,我想要的是保持句子没有标点符号,而“沃霍尔的”保持原样

期望输出:"warhol's art used many types of media including hand drawing painting printmaking photography silk screening sculpture film and music"

"austro-hungarian empire"

编辑:

我也试过用tbl = dict.fromkeys(i for i in xrange(sys.maxunicode)

if unicodedata.category(unichr(i)).startswith('P'))

sentence = sentence.translate(tbl)

但这会去掉所有标点符号

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值