emeditor python_EmEditor

崔辰州博士推动的英汉天文学名词数据库向社会开放,包含22660个专业词条,可离线查阅。博主利用这些数据制作了一个46271词条的星际译王双语天文学词典,并分享了处理过程,包括删除不规范符号、转换格式、拆分词条等步骤。遵循发布的使用协议,该词典可供集成和二次开发,但不得修改内容。
摘要由CSDN通过智能技术生成

在崔辰州博士的积极推动下,经过中国天文学会天文学名词审定委员会近一个月的邮件讨论,“英汉天文学名词数据库”终于向社会开放了。2万多天文专业词条终于能够在本机离线查阅(灵格斯已经及时推出了相应词典),相信能够很好的促进中文天文学名词的规范与普及工作。

这次发布的是截止到08年8月26日的修订版本,共有词条22660,遵照发布协议“使用者可以对公开的“天文名词库”进行集成、二次开发、格式转换等操作,但任何使用者无权对“天文名词库”的内容进行修改或者与其它词库产品整合后二次发布”。我制成有46271词条的星际译王(Stardict)版双语天文学词典,在3.0.1下测试通过。点此下载。

为便于检索,我将其中的希腊字母都转换为对应的英文拼写,官方网站只提供了英汉部分数据,我用Emditor的正则表达式功能进行了汉英转换,过程大略如下:

1、删除引号,尖括号,书名号等不规范符号

2、交换左右列,变英汉对照为汉英对照,

方法:正则替换 ^(.*?)\t(.*?)\n 为 \2\t\1\n

3、将中文词条中全角括号中的内容移到注释中,用逗号分隔,

正则替换 \((.*?)\)\t(.*?)\n 为 \t\1,\2\n

4、将用顿号分开的多个中文解释拆分为词条,

正则替换^(.*?)\、(.*?)\t(.*?)\n 为 \1\t\3\n\2\t\3\n,此语句每次只能拆开两个词条,需要多次运行

5、然后保存成UTF-8格式,就可以应用译王的词典制作工具了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值