13. 去除字符串中不需要的字符

最新推荐文章于 2022-11-25 09:30:02 发布

最爱喝酸奶

最新推荐文章于 2022-11-25 09:30:02 发布

阅读量1.4k

点赞数

分类专栏： # Python3编程文章标签： python

本文链接：https://blog.csdn.net/miss1181248983/article/details/101314199

版权

Python3编程专栏收录该内容

48 篇文章 4 订阅

订阅专栏

要求：

过滤掉用户输入中前后多余的空白字符：

'  nick2008@gmail.com  '

过滤Windows下编辑文本中的\r、\n：

'hello world\r\n'

去掉文本中的Unicode组合符号（音调）：

'nǐ hǎo，shì jiè'

解决方案：

字符串的strip()、lstrip()、rstrip()方法去掉字符串两端的字符；
删除单个固定位置的字符，可以使用split()方法先切片后拼接的方式；
字符串的replace()方法或正则表达式re.sub()删除任意子串（令要替换的内容为''）；
使用unicodedata.normalize()方法，可以删除Unicode字符串。

对于strip()方法：

字符串的strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列，返回一个列表。

注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。

类似的，lstrip()方法用于截掉字符串左边的空格或指定字符；rstrip()方法用于截掉字符串右边的空格或指定字符。

对于replace()方法：

replace(old, new, count)

字符串的replace()方法把字符串中的old（旧字符串）替换成new(新字符串)，count表示要替换的最大次数。

对于unicodedata.normalize()方法:

unicodedata.normalize(form, unistr)

返回Unicode字符串unistr的正常形式form。 form的有效值为NFC、NFKC、NFD和NFKD。

方案1示例：

s1 = '  nick2008@gmail.com  '
s2 = '+-===nick2008@gmail.com===-+'
s3 = '+-=  nick2008@gmail.com  =-+'
s4 = '  +-=  nick2008@gmail.com  =-+  '
print(s1.strip())
print(s2.strip('+-='))
print(s3.strip('+-= '))
print(s4.strip('+-= '))

nick2008@gmail.com              #结果
nick2008@gmail.com
nick2008@gmail.com
nick2008@gmail.com

方案2示例：

from functools import reduce

s = '    abc:1234+sbd-    ewq=grw\r\n  '

def my_split(s, seps):
    res = reduce(lambda t, sep: sum(map(lambda ss: ss.split(sep), t), []), seps, [s])
    return res

answer = ''

for i in my_split(s,':+-=\r\n '):
    answer += i

print(answer)

abc1234sbdewqgrw                #结果

字符串的split()方法指定分隔符对字符串进行切片，自定义函数my_split()可将字符串中不需要的任意字符去除。

方案3示例：

使用replace()方法：

from functools import reduce

s = '    abc:1234+sbd-    ewq=grw\r\n  '

def my_replace(s, seps):
    res = reduce(lambda t, sep: t.replace(sep, ''), seps, s)
    return res

answer = my_replace(s, ' :+-=\r\n')
print(answer)

abc1234sbdewqgrw                #结果

使用replace()方法比使用split()方法简单，这是因为replace()方法返回的结果是字符串，而split()方法返回的结果是列表。

使用正则表达式re.sub()：

import re
from functools import reduce

s = '    abc:1234+sbd-    ewq=grw\r\n  '

def my_rub(s, seps):
    res = reduce(lambda t,sep: re.sub(r'[%s]+' % sep, '', t), seps, s)
    return res

answer = my_rub(s, ' :+-=\r\n')
print(answer)

abc1234sbdewqgrw                #结果

方案4示例：

import unicodedata

s = 'ní hǎo, shì jiè'

answer = unicodedata.normalize('NFKD', s).encode('ascii','ignore')
print(str(answer).replace('b', ''))

'ni hao, shi jie'               #结果