opencc是开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。(本文下载该软件是进行维基百科中文语料库的繁体字处理)
以下均为安装操作,全部在终端进行:
git clone https://github.com/BYVoid/OpenCC
sudo apt-get install cmake
sudo apt-get install doxygen
cd OpenCC
make
make install #这一步我报错了,接着我就输入下一行代码
sudo apt install opencc #安装完成
opencc --version#查看是否安装成功 本文安装的是Version: 1.1.3
#进行测算
echo '歐幾里得 西元前三世紀 的希臘數學家 現在被認為是幾何之父 此畫為拉斐爾的作品 ' | opencc -c t2s
输出的结果为:欧几里得 西元前三世纪的希腊数学家 现在被认为是几何之父 此画为拉斐尔的作品
执行指令
opencc -i wiki.zh.txt -o wiki.zh.txt.jian -c t2s.json
以下其相关配置:
s2t.json 简体到繁体
t2s.json 繁体到简体
s2tw.json 简体到台湾正体
tw2s.json 台湾正体到简体
s2hk.json 简体到香港繁体(香港小学学习字词表标准)
hk2s.json 香港繁体(香港小学学习字词表标准)到简体
s2twp.json 简体到繁体(台湾正体标准)并转换为台湾常用词汇
tw2sp.json 繁体(台湾正体标准)到简体并转换为中国大陆常用词汇