本篇博客我们将会深入而全面地探讨python中字符串处理的方方面面
前言
字符串处理对于python来说是一个十分重要的主题,熟练掌握python中字符串处理的技巧可以让我们在使用python的时候更加得心应手。因此我专门用这篇博客来总结一下我在学习python字符串处理的过程中的经验与感受。在开始博客正式内容之前,我们先要明确什么是字符串格式化?为什么需要进行字符串格式化?我们经常会输出类似亲爱的xxx你好!你xx月的话费是xx,余额是xx
之类的字符串,而xxx的内容是会随情况不同而变化的,所以,需要一种简便的格式化字符串的方式。整篇文章,我们将会采用实例加总结的方式进行。
实例讲解
按位置访问参数
>>> '{0}, {1}, {2}'.format('a', 'b', 'c')
'a, b, c'
>>> '{}, {}, {}'.format('a', 'b', 'c') # 3.1+ only
'a, b, c'
>>> '{2}, {1}, {0}'.format('a', 'b', 'c')
'c, b, a'
>>> '{2}, {1}, {0}'.format(*'abc') # unpacking argument sequence
'c, b, a'
>>> '{0}{1}{0}'.format('abra', 'cad') # arguments' indices can be repeated
'abracadabra'
按名称访问参数:
>>> 'Coordinates: {latitude}, {longitude}'.format(latitude='37.24N', longitude='-115.81W')
'Coordinates: 37.24N, -115.81W'
>>> coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
>>> 'Coordinates: {latitude}, {longitude}'.format(**coord)
'Coordinates: 37.24N, -115.81W'
访问参数的属性:
>>> c = 3-5j
>>> ('The complex number {0} is formed from the real part {0.real} '
... 'and the imaginary part {0.imag}.').format(c)
'The complex number (3-5j) is formed from the real part 3.0 and the imaginary part -5.0.'
>>> class Point:
... def __init__(self, x, y):
... self.x, self.y = x, y
... def __str__(self):
... return 'Point({self.x}, {self.y})'.format(self=self)
...
>>> str(Point(4, 2))
'Point(4, 2)'
访问参数的项:
>>> coord = (3, 5)
>>> 'X: {0[0]}; Y: {0[1]}'.format(coord)
'X: 3; Y: 5'
替代 %s 和 %r:
>>> "repr() shows quotes: {!r}; str() doesn't: {!s}".format('test1', 'test2')
"repr() shows quotes: 'test1'; str() doesn't: test2"
对齐文本以及指定宽度:
>>> '{:<30}'.format('left aligned')
'left aligned '
>>> '{:>30}'.format('right aligned')
' right aligned'
>>> '{:^30}'.format('centered')
' centered '
>>> '{:*^30}'.format('centered') # use '*' as a fill char
'***********centered***********'
替代 %+f, %-f 和 % f 以及指定正负号:
>>> '{:+f}; {:+f}'.format(3.14, -3.14) # show it always
'+3.140000; -3.140000'
>>> '{: f}; {: f}'.format(3.14, -3.14) # show a space for positive numbers
' 3.140000; -3.140000'
>>> '{:-f}; {:-f}'.format(3.14, -3.14) # show only the minus -- same as '{:f}; {:f}'
'3.140000; -3.140000'
替代 %x 和 %o 以及转换基于不同进位制的值:
>>> # format also supports binary numbers
>>> "int: {0:d}; hex: {0:x}; oct: {0:o}; bin: {0:b}".format(42)
'int: 42; hex: 2a; oct: 52; bin: 101010'
>>> # with 0x, 0o, or 0b as prefix:
>>> "int: {0:d}; hex: {0:#x}; oct: {0:#o}; bin: {0:#b}".format(42)
'int: 42; hex: 0x2a; oct: 0o52; bin: 0b101010'
使用逗号作为千位分隔符:
>>> '{:,}'.format(1234567890)
'1,234,567,890'
表示为百分数:
>>> points = 19
>>> total = 22
>>> 'Correct answers: {:.2%}'.format(points/total)
'Correct answers: 86.36%'
使用特定类型的专属格式化:
>>> import datetime
>>> d = datetime.datetime(2010, 7, 4, 12, 15, 58)
>>> '{:%Y-%m-%d %H:%M:%S}'.format(d)
'2010-07-04 12:15:58'
嵌套参数以及更复杂的示例:
>>> for align, text in zip('<^>', ['left', 'center', 'right']):
... '{0:{fill}{align}16}'.format(text, fill=align, align=align)
...
'left<<<<<<<<<<<<'
'^^^^^center^^^^^'
'>>>>>>>>>>>right'
>>>
>>> octets = [192, 168, 0, 1]
>>> '{:02X}{:02X}{:02X}{:02X}'.format(*octets)
'C0A80001'
>>> int(_, 16)
3232235521
>>>
>>> width = 5
>>> for num in range(5,12):
... for base in 'dXob':
... print('{0:{width}{base}}'.format(num, base=base, width=width), end=' ')
... print()
...
5 5 5 101
6 6 6 110
7 7 7 111
8 8 10 1000
9 9 11 1001
10 A 12 1010
11 B 13 1011
格式字符串语法总结
格式字符串包含有以花括号 {} 括起来的替换字段
。 不在花括号之内的内容被视为字面文本
,会不加修改地复制到输出中。 如果你需要在字面文本中包含花括号字符,可以通过重复来转义: {{ and }}。
用不太正式的术语来描述(其实是有严格的语法描述的,但我暂时没看懂
),替换字段
开头可以用一个field_name指定要被插入到输出结果的对象。 field_name 之后有以一个冒号 ':' 打头的可选 conversion 字段
,它是一个感叹号 ‘!’ 加一个 format_spec。 这些指明了替换值的非默认格式。
field_name 本身以一个数字或关键字 arg_name 打头
。 如果为数字,则它指向一个位置参数,而如果为关键字,则它指向一个命名关键字参数。 如果格式字符串中的数字 arg_names 为 0, 1, 2, … 的序列,它们可以全部省略(而非部分省略),数字 0, 1, 2, … 将会按顺序自动插入。说了一堆,它其实就是用来指定替换字段的.。
使用 conversion 字段在格式化之前进行类型强制转换。 通常,格式化值的工作由值本身的__format__() 方法来完成。 但是,在某些情况下最好强制将类型格式化为一个字符串,覆盖其本身的格式化定义。 通过在调用__format__() 之前将值转换为字符串,可以绕过正常的格式化逻辑。
先来一个小的总结:格式化字段的使用方法就是在字符串中预留一个field_name字段,这个字段是随着它对应的内容而变化的,field_name格式是这样的:{arg_names[:xxxx]}
args_names是用来确定这个预留字段与format中的哪一个字段相对应。:xxxx是用来在将format中的字段插入字符串前
对这个字段进行预处理的指令。下面我们来仔细看看:xxxx里面的内容是怎样的。
格式规格迷你语言
格式规格
在格式字符串所包含的替换字段
内部使用,用于定义单个值应如何呈现
格式:format_spec::=[[fill]align][sign][#][0][width][grouping_option][.precision][type]
具体每个格式说明符(也就是上面的:xxxx组件)的含义如下
格式说明符 | 含义 |
---|---|
fill | 任何字符串 |
align | 对齐排列 |
sign | 符号 |
width | 宽度 |
grouping_option | 组选项 |
precision | 精度 |
type | 类型 |
我们下面将会采用示例的方式讲解每一种格式说明符的含义
>>> '{0:*>+10}'.format(12)
'*******+12'
>>>
在这个例子中,fill部分是*,align采用>对齐说明符,width为10个字符,sign为’+’。我们会发现最终的效果:12按照箭头的方向右对齐同时左边有一个+号,左边空余部分被*填充
,我们现在就已经解释了fill,align,sign,width四个字段的功能了。下面我们用另一个实例讲解剩余的字段的功能。
>>> '{0:*>+10,d}'.format(1212)
'****+1,212'
>>>
在这个字段里面添加了两个新的操作,’,’ 选项表示使用逗号作为千位分隔符。‘d’用来指定显示格式。比如,二进制,十进制,八进制,十六进制等等,具体去查手册。最后还有一个精度的设置,这个我们在下面的例子中展示。
>>> '{0:*>+20.34}'.format(1212.123)
'+1212.123000000000047293724492192268'
>>>
我们通过.precision,我们设置显示34位小数点。
更多细节,请查看手册string处理
模板字符串
Python的标准库中提供了一个 Template 类,可以进行简单的内容替换.
from string import Template
name = "earth"
age = 4600000000
templ = Template("$name is $age old")
return templ.substitute(name=name,age=float(age))
运行结果
earth is 4600000000.0 old
总结
暂时没想好,等我用一段时间再来进行总结