python 2.x和3.x中maketrans和translate函数的使用

来源:http://blog.chinaunix.net/uid-25576469-id-226367.html

    maketrans和translate函数是进行字符串字符编码的常用方法。本文着重点在于演示其基本用法和在不同版本下操作的差异。本文提到的2.X版本指2.6以上的版本,3.X版本指3.1以上的版本。
    2.X版本把字符串基本分为两种:unicode字符串和8位字符串str,后者包含字节数据和我们常见的ASCII码数据;而3.X版本则重新对字符串进行了划分,分为了字节字符串bytes和文本字符串str,两者都是不可变的,所以添加了一个可变的字节字符串类型bytearray。
     2.X版本中string类型和str、unicode类型大量方法是重复的,所以3.X版本不提倡使用string模块中与str重复的方法。string模块中还有很多有用的常量和方法,比如string.digits,可以在字符串编码中方便地使用。

     2.X中maketrans和translate函数的签名:
  1. string.maketrans(from, to)
  1. string.translate(s, table[, deletechars])
  2. str.translate(table[, deletechars])
  3. unicode.translate(table)
    3.X中maketrans和translate函数的签名:
  1. static str.maketrans(x[, y[, z]])
  2. static bytes.maketrans(from, to)
  3. static bytearray.maketrans(from, to)
  1. str.translate(map)
  2. bytes.translate(table[, delete])
  3. bytearray.translate(table[, delete])
    从中可以看出,相对于2.X的string模块的maketrans方法,3.X中分别提供了三个静态方法用于创建映射表。
   下面让我们看一个简单的例子来说明字符串转换的过程:
    2.X下的演示过程:
  1. >>> import string                                         #导入string模块
  2. >>> map = string.maketrans('123', 'abc')  #建立映射表,将字符串中含有的'1','2','3'替换为'a','b','c'
  3. >>> s = '54321123789'                               #转换前的字符串
  4. >>> s.translate(map)                                    #用创建的映射表map转换字符串
  5. '54cbaabc789'                                                #转换后的字符串
    3.X下的演示过程:
  1. >>> map = str.maketrans('123','abc')
  2. >>> s = '54321123789'
  3. >>> s.translate(map)
  4. '54cbaabc789'
    2.X使用了string的maketrans函数,而3.X使用了str的maketrans函数,除了这一点,使用方法是基本相同的。若指定字符串中要删除的字符时,使用就会略有不同,如下:
    2.X下的演示过程:
  1. >>> import string
  2. >>> map = string.maketrans('123', 'abc')
  3. >>> s = '54321123789'
  4. >>> s.translate(map, '78')               #除了转换,还要删除字符串中的字符'7','8'
  5. '54cbaabc9'                              #转换后的字符串没有字符'7','8'
    3.X下的演示过程:
  1. >>> map = str.maketrans('123','abc', '78')#要删除的字符需要在这指定
  2. >>> s = '54321123789'
  3. >>> s.translate(map)
  4. '54cbaabc9'
    我在读《Python Cookbook》遇到了一个基于2.X版本的例子,如下
  1. import string 
  2. def translator(frm='', to='', delete='', keep=None): 
  3.     if len(to) == 1: 
  4.         to = to * len(frm) 
  5.     trans = string.maketrans(frm, to) 
  6.     if keep is not None: 
  7.         allchars = string.maketrans('', '') 
  8.         delete = allchars.translate(allchars, keep.translate(allchars,delete)) 
  9.     def translate(s): 
  10.         return s.translate(trans, delete) 
  11.     return translate
    见代码中加红部分,allchars应该是一个返回的映射表,为什么还可以调用translate方法,所以它应该是一个str类型,测试如下:
  1. >>> import string
  2. >>> map = string.maketrans('123', 'abc')
  3. >>> type(map)
  4. <type 'str'>
    在3.X版本中这个方法不能正常通过运行,那么错在什么地方呢,我们看看映射表是什么类型:
  1. >>> map = str.maketrans('123','abc')
  2. >>> type(map)
  3. <class 'dict'>
    知道了映射表的类型了,我们就可以对其进行“后期加工”,像上面《Python Cookbook》中的例子一样, 来满足我们的编码要求

   上面讨论的例子用的字符串是ASCII字符组成的,如果是字节类型,2.X版本中操作是一样的,3.X中调用bytes或bytearray的函数;若是unicode类型的,2.X需要用unicode的translate方法,注意下面的代码

  1. >>> print u"hallo".translate({97:u'e'})
  2. hello
  3. >>> print u"hallo".translate({'a':u'e'})
  4. hallo
  5. >>> print u"hallo".translate({u'a':u'e'})
  6. hallo
    结果之所以不一样,查阅手册可知unicode的translate方法的映射表也就是字典的键必须是unicode的位序数,值可以是unicode的位序数、unicode字符串或这None。

    其他具体信息可以查阅python 标准库手册。
    
    转载请注明。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值