在NLP任务中,通过数据增强(例如EDA、回译等)的方式增加训练集是一个非常常用的trick。其中回译就需要用到翻译系统。但由于构建翻译系统需要大规模的语料和算力,所以不如直接使用现有的翻译系统。除此之外,还有很多的场景均需要翻译,所以为了满足大家的需求,特花时间来给大家写一篇通过爬虫使用百度翻译的博客。
这次的天选之子就是百度翻译,但事先说明下该脚本只是为了学习,请勿滥用、商用,否则后果自负。
1. 搭建环境
虽然在网上有很多类似的博客,但绝大多数讲的过粗,不利于新手的学习。所以就给大家准备一篇极为详细的博客。
首先需要说明的是,本文需要依托于Python和nodejs环境,其中安装Python这里就不再进行赘述,安装nodejs将在下文进行详细阐述。
1.1 安装Python库
pip install PyExecJS
pip install requests