问题
一些无聊的幼稚黑客在你的网站页面的表单中输入文本你’pÃthöñ’,然后你想将这些字符清理掉。
解决方案
文本清理问题会涉及到包含文本解析与数据处理等一系列问题。在非常简单的情形下,你可能会选择使用字符串函数(比如str.upper()和str.lower())将文本转为标准格式。使用str.replace()或者re.sub()的简单替换操作能删除或者改变指定的字符序列。你同样还可以使用unicodedata.normalize()函数将unicode文本标准化.
然后,有时候你可能还在清理操作上更进一步。比如,你可能想消除整个区间上的字符或者去除变音符。为了这样做,你可以使用translate()方法。为了演示,假设你现在有下面这个凌乱的字符串:
s='pÃthöñ\fis\tawesome\r\n'
print(s) # ->pÃthöñis awesome
第一步是清理空白字符。will这样做,先创建一个小的转换表格然后使用translate()方法:
remap={
ord('\t'):' ',
ord('\f'):' ',
ord