中文繁体转简体需要用到工具OpenCC
该工具可以支持多种中文之间的转换
安装方式见:https://github.com/yichen0831/opencc-python
from opencc import OpenCC
from gensim.corpora.wikicorpus import filter_wiki
import re
cc = OpenCC('t2s')
def wiki_replace(d):
"""
将繁体转成简体
:param d: 文本
:return:
"""
s=d
s = re.sub(':*{\|[\s\S]*?\|}', '', s)
s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)
s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)
s = filter_wiki(s)
s = re.sub('\* *\n|\'{2,}', '', s)
s = re.sub('\n+', '\n', s)
s = re.sub('\n[:;]|\n +', '\n', s)
s = re.sub('\n==', '\n\n==', s)
s = u'【' + d + u'】\n' + s
return cc.convert(s).strip()
如无意外,会得到:
可以看见,繁体已经全部转成简体了。