re.sub(r"[\s+\.\!\/_,$%^*(+\"\')]+|[+——?【】?~@#¥%……&*]+|\\n+|\\r+|(\\xa0)+|(\\u3000)+|\\t", "", str(内容))
接着就可以得到所有清洁后的小说了。
正则判断中文:
import re a = '1a' isRight = re.compile(u'[\u4e00-\u9fa5]') # 排除中文的 if isRight.search(a): print('有中文') else: print('没有中文')