由于 需求原因,需要匹配 提取中文,大量google下,并没有我需要的。花了一个小时大概测试,此utf8中文通过,特留文。
参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html
http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html
首先,确保所有编码都为 unicode
比如 str.decode('utf8') #从utf8文本中
u"啊l" #在控制台输出中
(罗嗦下)本想使用参考一定编码 Hex 但郁闷的是 这每个字好像占2个位置,使用正则匹配无果。
其次,确定中文范围 : [\u4e00-\u9fa5]
(这里注意下 python 的re写的时候) 要 u " [\u4e00-\u9fa5] " #确定正则表达式也是 unicode 的
参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html
http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html
首先,确保所有编码都为 unicode
比如 str.decode('utf8') #从utf8文本中
u"啊l" #在控制台输出中
(罗嗦下)本想使用参考一定编码 Hex 但郁闷的是 这每个字好像占2个位置,使用正则匹配无果。
其次,确定中文范围 : [\u4e00-\u9fa5]
(这里注意下 python 的re写的时候) 要 u " [\u4e00-\u9fa5] " #确定正则表达式也是 unicode 的