首先先分享下github这篇文章吧,参考了部分代码,但我想做一个很详细的解读。新版百度文库爬虫 · Jack-Cherish/python-spider@3c5480dgithub.com
首先,我想自动化打开百度文库的页面(其实这一步,并不需要,经实践得知)。
不过,我觉得这一步算是初级的对selenium理解,希望对大家有所帮助。
第一步的流程:自动化打开百度文库网页 -> 将窗口下滑到“继续阅读”的按钮处 -> 自动点击 -> 显示完整页面。
def auto_page_search(url):
print('开始自动查询网页')
browser = webdriver.Chrome()
# browser.get('https://wenku.baidu.com/view/dcfab8bff705cc175527096e.html')
browser.get(url)
print('等待5秒')
time.sleep(5)
# 下面这个语句并不是查找“继续阅读”按钮所在位置,而是更上面的元素,因为按照原本元素位置滑动窗口会遮挡住,大家可以试一试
eles = browser.find_element_by_xpath('//*[@id="html-reader-go-more"]/div[1]/div[3]/div[1]')
browser.execute_script('arguments[0].scrollIntoView();', eles)
print('等待2秒')
time.sleep(2)
#点击“继续阅读”按钮
browser.find_element_by_xpath('//*[@id="html-reader-go-more"]/div[2]/div[1]/span/span[2]').click()
print('已显示文档所有内容')
接着,欸我们就想着定义一个可以抓取网页源代码的函数,以便于我们后面的爬取,这个函数很重要。
<