python爬虫英文翻译_python爬虫-采集英语翻译

http://fanyi.baidu.com/?aldtype=85#en/zh/drug

http://fanyi.baidu.com/?aldtype=85#en/zh/cat

http://fanyi.baidu.com/?aldtype=85#en/zh/amoxicillin

url+word

# -*- coding: utf-8 -*-

"""

Created on Wed Mar 2 20:35:05 2016

@author: daxiong

"""

import openpyxl,selenium,bs4,requests

from selenium import webdriver

from openpyxl.cell import get_column_letter,column_index_from_string

excel_name='translation.xlsx'

#两个表格名字

sheet_name="Sheet1"

wb=openpyxl.load_workbook(excel_name)

sheet=wb.get_sheet_by_name(sheet_name)

English_columnname="A"

Chinese_columnname="B"

start=1

#根据列表索引字母,返回列表

def Get_column(columnname,thesheet):

column_index=column_index_from_string(columnname)

column=thesheet.columns[column_index-1]

return column

#根据列,返回列的值,用列表存储

def Column_cellValues(column):

cellValue_list=[]

for cellObj in column[start:]: #console显示不全前面内容,出现第一项不是第一个

#print(cellObj.value)

cellValue_list.append(cellObj.value)

return cellValue_list

#返回英语翻译网址列表

def Url_list(words_list):

url_list=[]

basic_url="http://fanyi.baidu.com/?aldtype=85#en/zh/"

for word in words_list:

url=basic_url+word

url_list.append(url)

return url_list

English_column=Get_column(English_columnname,sheet)

EnglishWords_list=Column_cellValues(English_column)

url_list=Url_list(EnglishWords_list)

#打开浏览器

#browser=webdriver.Firefox()

#browser.get(url_list[0])

res=requests.get(url_list[0])

res.raise_for_status()

soup=bs4.BeautifulSoup(res.text,"lxml") #如果没有"lxml"参数,在其他系统或虚拟机会出错

spanElems=soup.select('span')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值