中文的正则表达式 可用于爬取txt文件中的中文字符 编码方式:UTF-8 正则表达式:[\u4e00-\u9fa5] 原理:像[a-z]一样,包括了由utf-8编码的所有中文字符 例: `# coding:utf-8 import re string = ‘我是个好人。’ pattern =’[\u4e00-\u9fa5]+’ pat = re.compile(pattern) print(pat.findall(string)[0])`