文本去除中文以外的所有字符 import re def find_chinese(file): pattern = re.compile(r'[^\u4e00-\u9fa5]') chinese = re.sub(pattern, '', file) print(chinese) return chinese 使用的示例 # 输入 find_chinese('23sdfh社会信用.代码MATBCE法保险费……第二十三') # 返回的内容 - 社会信用代码法保险费第二十三