2.12 审查清理文本字符串

问题

​ 一些无聊的幼稚黑客在你的网站页面的表单中输入文本你’pÃthöñ’,然后你想将这些字符清理掉。

解决方案

​ 文本清理问题会涉及到包含文本解析与数据处理等一系列问题。在非常简单的情形下,你可能会选择使用字符串函数(比如str.upper()和str.lower())将文本转为标准格式。使用str.replace()或者re.sub()的简单替换操作能删除或者改变指定的字符序列。你同样还可以使用unicodedata.normalize()函数将unicode文本标准化.

​ 然后,有时候你可能还在清理操作上更进一步。比如,你可能想消除整个区间上的字符或者去除变音符。为了这样做,你可以使用translate()方法。为了演示,假设你现在有下面这个凌乱的字符串:

s='pÃthöñ\fis\tawesome\r\n'
print(s)  # ->pÃthöñis	awesome

​ 第一步是清理空白字符。will这样做,先创建一个小的转换表格然后使用translate()方法:

remap={
   
    ord('\t'):' ',
    ord('\f'):' ',
    ord
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值