python清洗文本非法字符_Python 文本字符串清理

本文介绍了如何使用Python进行文本字符串清理,包括strip()、lstrip()、rstrip()方法移除多余字符,使用translate()和unicodedata模块处理Unicode文本,以及encode()和decode()方法删除非法字符。通过示例展示了各种方法的使用场景和效果。
摘要由CSDN通过智能技术生成

文本字符串清理

由于收集来源的问题(比如,表单文本数据录入错误,甚至于有意录入错误的数据),文本字符串往往需要先进行清理才能够在后续的需求中发挥正常且正确的作用。

删除字符串中多余的字符

在文本字符串中,经常会遇到开头,结尾或者中间不需要的字符,例如空白符。

strip()、lstrip()、rstrip()

strip() 方法用于移除开始或结尾的字符。该方法接受一个参数 chars,该参数为指定要移除的字符。若缺省或为 None,默认指定移除空白符。

lstrip(),rstrip() 方法参数同 strip(),lstrip() 从左执行移除操作,而 rstrip() 从右执行移除操作。

举例说明三者的用法及效果:

>>> # 空白符的移除

... s = ' hello world \n'

>>> s.strip() # 移除前后空白符

'hello world'

>>> s.lstrip() # 移除前空白符

'hello world \n'

>>> s.rstrip() # 移除后空白符

' hello world'

>>>

>>> # 指定其他字符的移除

... s = 'www.example.com'

>>> s.strip('cmowz.')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值