ljust是python中用于将字符串填充至指定长度的内置函数,通常用于输出中字符串的对齐。
但ljust在填充包含中英文字符串的时候,填充后的长度总是不对,导致输出无法真正对齐,其根本原因在于ljust中可能使用了len统计字符个数,而英文一般只占位1个字符,中文是要占位2个字符的,但len是不分中英文的,统一当成1个字符位统计。
1
2
3
4
5
6
7
8
9
10
11
12
13
|
>>>
len
(
'我是中文'
)
4
>>>
len
(
'abcd'
)
4
>>>
str1
=
'0123456789'
>>>
str2
=
'我是中文'
>>>
len
(
str1
)
10
>>>
len
(
str2
)
4
>>>
str2
.
ljust
(
10
)
;
str1
'我是中文 '
'0123456789'
|
如上例所示,这就导致了字符串无法对齐的问题,解决的办法也随之清晰:将中文字符串计算为两个即可:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
#为了修复ljust的一个中英文混合使用出现的bug:
#统计其中的中文个数, ljust将中英文字符通通算作一个字符,
#而每个中文字符其实相当于2个英文字数,因此相当于少算了每个中文字符1个字数
import
re
def
len_zh
(
data
)
:
temp
=
re
.
findall
(
'[^a-zA-Z0-9.]+'
,
data
)
count
=
0
for
i
in
temp
:
count
+
=
len
(
i
)
return
(
count
)
#调用ljust前先计算中文字符个数
zh
=
len_zh
(
str
)
#动态修正填充字符数
str
.
ljust
(
20
-
zh
)
|
此方法只是暂时解决,并不是完美的解决方案:
- 计算中文字符是通过非运算得到的,结果并不一定可以保证准确。应该采用更好的方法统计中文字符数(相关资料)
- 覆盖重写ljust函数应该更好。
查资料之后,发现len统计字符的问题可能是和python3的utf-8编码方式有关(相关链接),utf-8编码中英文都占1字符位,gbk编码中文2字符位,英文1字符位。