最初是由GIS才认识Python,给朋友帮忙,写了个爬取CNKI的脚本,主要运用了selenium下的webdriver以及BeautifulSoup模块。运行下来,发现频繁的访问会导致验证码的出现,暂时没解决这个问题,有知道的大神请不吝赐教。
上代码:
#!/usr/bin/env python
# -*- coding:utf-8-*-__author__='Alex Gu'
__time__='20160121'
#解决提交后出现汉字转码问题用下面三行代码
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
#导入必要的模块
from selenium import webdriver
from time import sleep
from BeautifulSoup import BeautifulSoup
#定义提取单个网页中所需信息的函数
def Ex_CNKImesg(wy):
soup=BeautifulSoup(wy)
top_div=soup.find("div",{"id":"main"})
aa_=top_div.find("div",{"id":"content"})
bb_=aa_.find("div")
cc_=bb_.find('div',{"class":"summary pad10"})
dd_=cc_.