由于工作原因需要做中英文转换,故在工作之余写了一个基于google的中英文翻译,主要是中文转英文或者是英文转中文,只需要在calues值那里配置以下就好,下面代码主要是from中文toEnglish。对于某些英文水平不好的同学,这个将是你们的福音。
首先导入下面库文件,其实有些是不必要的,但是基于写插件的习惯我就全部导入了,如下:
# coding=utf-8
import re
import sys
import hashlib
import urllib.request, urllib.parse
import random
import json
import time
然后我们需要找到个google翻译的网址,http://translate.google.cn,然后为了虚拟访问网站,需要设置虚拟信息,可以在网站上找到很多常用的虚拟爬虫信息。
url_google = 'http://translate.google.cn'
reg_text = re.compile(r'(?<=TRANSLATED_TEXT=).*?;')
user_agent = r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' \
r'Chrome/44.0.2403.157 Safari/537.36'
一切设置妥当,就该写主题,写爬取主代码了,如下:
def translateGoogle(text, f='zh-cn', t='en'):
values = {'hl': 'en', 'ie': 'utf-8', 'text': text, 'langpair': '%s|%s' % (f, t)}
value = urllib.parse.urlencode(values)
req = urllib.request.Request(url_google + '?' + value)
req.add_header('User-Agent', user_agent)
response = urllib.request.urlopen(req)
content = response.read().decode('utf-8')
data = reg_text.search(content)
result = data.group(0).strip(';').strip('\'')
print(result)
下面举个例子,翻译excel中的第一列的句子,然后输出出来
def openexcel(filename):
book = xlrd.open_workbook(filename) # 得到Excel文件的book对象,实例化对象
sheet = book.sheet_by_index(0) # 通过sheet索引获得sheet对象
nrows = sheet.nrows
print(nrows)
for i in range(nrows):
cell_value = sheet.cell_value(i, 0)
translateGoogle(cell_value)
下面的都是习惯了,习惯性的看看自己写的代码运行需要多少时间。
time_google = 0
time1 = time.time()
openexcel('交税.xls')
time2 = time.time()
time_google += (time2 - time1)
print('谷歌翻译时间:%s' % (time_google / 10))