最近参加了一个sem-eval 2013的task 8:Cross-lingual Textual Entailment for Content Synchronization.打算研究生毕设就做这个了。
想到的一个方法就是先把非英语翻译为英语,再做常规的文本推理。无奈google的翻译API竟然关闭了,但你网页总不会关闭吧?于是找到了前人做好的工具:Google翻译post提交无长度限制的在线翻译例子,原理是直接抽取网页。可以支持长文本,这样就可以一次翻译多句话了。
但是上述的工具存在一个缺陷,翻译出来的结果中含有HTML转义字符,如"&","""。解决方法见我另一篇博客:将HTML中的特殊字符转化为可显示的字符。
附上国家语言简称表:
Language | Language code |
---|---|
Afrikaans | af |
Albanian | sq |
Arabic | ar |
Belarusian | be |
Bulgarian | bg |
Catalan | ca |
Chinese Simplified | zh-CN |
Chinese Traditional | zh-TW |
Croatian | hr |
Czech | cs |
Danish | da |
Dutch | nl |
English | en |
Estonian | et |
Filipino | tl |
Finnish | fi |
French | fr |
Galician | gl |
German | de |
Greek | el |
Haitian Creole | ht |
Hebrew | iw |
Hindi | hi |
Hungarian | hu |
Icelandic | is |
Indonesian | id |
Irish | ga |
Italian | it |
Japanese | ja |
Latvian | lv |
Lithuanian | lt |
Macedonian | mk |
Malay | ms |
Maltese | mt |
Norwegian | no |
Persian | fa |
Polish | pl |
Portuguese | pt |
Romanian | ro |
Russian | ru |
Serbian | sr |
Slovak | sk |
Slovenian | sl |
Spanish | es |
Swahili | sw |
Swedish | sv |
Thai | th |
Turkish | tr |
Ukrainian | uk |
Vietnamese | vi |
Welsh | cy |
Yiddish | yi |
PS:几近荒芜的空间,太久没有干正事了……