正则表达式:
[\u2E80-\u9FFF]+$ 匹配所有东亚区的语言
[\u4E00-\u9FFF]+$ 匹配简体和繁体
[\u4E00-\u9FA5]+$ 匹配简体
1 1 #-*- coding:utf-8 -*-
2 2
3 3 importre4 4
5 5 '''
6 6 python 3.5版本7 7 正则匹配中文,固定形式:\u4E00-\u9FA58 8'''
9 9
10 10 words = 'study in 山海大学'
11 11 regex_str = ".*?([\u4E00-\u9FA5]+大学)"
12 12 match_obj =re.match(regex_str, words)13 13 ifmatch_obj:14 14 print(match_obj.group(1))15 15
16 16
17 17 结果:山海大学
Python添加对Unicode的支持,以Unicode表示的字符串用u’ABC’来表示。
字符串’xxx’虽然是ASCII编码,但也可以看成是UTF-8编码,而u’xxx’则只能是Unicode编码。
把u’xxx’转换为UTF-8编码的’xxx’用encode(‘utf-8’)方法。
1 >>> u'ABC'.encode('utf-8')2 'ABC'
3 >>> u'中文'.encode('utf-8')4 '\xe4\xb8\xad\xe6\