使用python 2,在每個字元串或Unicode對象上調用 .lower() 。string1.lower() == string2.lower()
大多數時候都可以工作,但是,實際上在 @tchrist描述的情況下並不工作。
假設我們有一個名為unicode.txt的文件,其中包含兩個字元串Σίσυφος和ΣΊΣΥΦΟΣ ,使用python 2:>>> utf8_bytes = open(" unicode.txt" , 'r').read()
>>> print repr(utf8_bytes)
'xcexa3xcexafxcfx83xcfx85xcfx86xcexbfxcfx82nxcexa3xcex8axcexa3xcexa5xcexa6xcex9fxcexa3n'
>>> u = utf8_bytes.decode('utf8')
>>> print u
Σίσυφος
ΣΊΣΥΦΟΣ
>>> first, second = u.splitlines()
>>> print first.lower()
σίσυφος
>>> print second.lower()
σίσυφοσ
>>> first.lower() == second.lower()
False
>>> first.upper() == second.upper()
True
Σ字元有兩個小寫形式,σ和 .lower()將不會幫助比較它們區分大小寫。
但是,在python 3中,所有三個form都被解析,並且兩個字元串上的lower()調用將正常工作:>>> s = open('unicode.txt', encoding='utf8').read()
>>> print(s)
Σίσυφος
ΣΊΣΥΦΟΣ
>>> first, second = s.splitlines()
>>> print(first.lower())
σίσυφος
>>> print(second.lower())
σίσυφος
>>> first.lower() == second.lower()
True
>>> first.upper() == second.upper()
True
如果你關心像希臘文這樣的三個sigmas的特殊情況,那麼使用python 3.
(作為參考,python 2.7.3和python 3.3.0 b1顯示在上面的解釋器輸出中)。