文章目的
最近需要在网上下载一些文献,输入关键词后大概有900篇文献,一个一个下载实在费时费力,所以想着写python程序进行文献自动下载。网上也有博客跟自动下载文献有关,如python 批量下载知网(CNKI)论文,但是代码在用的过程中总是有点问题,所以就自己边学Selenium边学着写爬虫。
环境搭建
本次开发工具使用的是Jupyter+Selenium库,具体的安装步骤不细说了,可以参考其他博客。 需要注意的是,在环境搭建过程中,需要下载一个chromedriver.exe放到与脚本同一个文件夹内,chromedriver.exe需要与电脑里chrome浏览器的版本号相匹配,具体可以参考selenium自动化测试资源整理。
所有代码
import os
from time import sleep
from selenium import webdriver
from selenium.webdriver.common.by import By
import pdb
def switch2NextPage(object):
nextPageURL = object.find_element(by = By.ID, value = "PageNext")