我们先不急着马上开始爬取,我们先来尝试使用一下Selenium调用ChromeDriver。
import requests
from selenium import webdriver
url = ‘https://wenku.baidu.com/view/5292b2bc0166f5335a8102d276a20029bd64638c.html?fr=search’
driver = webdriver.Chrome(r’F:\driver\chromedriver.exe’)
driver.get(url)
怎么样,是不是浏览器自动打开了?现在我们尝试输出这个driver,就可以看见,网页的正确源代码已经在里面了。
现在我们仔细研究一下源代码就可以看到,我们需要的内容在下面这个位置。
现在正确的源代码也有了,内容的位置也知道了,直接解析,爬取,完事就好了。
想得美,经过这样的爬取之后,对内容进行解析,让我们看看究竟爬到没有。
from lxml import etree
import re
html=etree.HTML(driver.page_source)
links=html.xpath(“//div[@class=‘reader-pic-item’]/@style”)
part = re.compile(r’url([)]')
qa=“”.join(links)
z=part.findall(qa)
我们可以知道,其实我们只爬到3张PDF,其他的都没有爬到。这是为什么呢?
这是百度文库为了防止大家去爬,专门设置的一个小机关。
返回百度文库,我们仔细看看源代码,其实我们可以发现,随着页面的变化,源代码是不断改变的,每次都只有3张图片的url。并且这个页码数也有一定的规律,如果在第二页,那么图片就是1,2,3,如果在第三页,图片就是2,3,4。
那么我们的疑惑一下就解决了,只需要不断地进行换页的爬取,就可以了。接下来就是如何实现换页的操作了。
这个需要两个步骤,先是点击继续阅读,然后进行页面输入实现换页。先实现点击的操作,代码如下。
button = driver.find_element_by_xpath(“//*[@id=‘html-reader-go-more’]/div[2]/div[1]/span”)
button.click()
driver.execute_script(“arguments[0].click();”, button)
整个操作是通过JS来进行的,大家可以把这个记住,以后需要点击的时候直接用就可以。
然后就是输入页面实现换页,这个其实涉及的比较多,细分的话,步骤分为获取总页数,依次输入页面并点击。
import re
寻找页面
source = re.compile(r’/(.*?)')
number = int(source.findall(driver.page_source)[0])
输入页面并点击
driver.find_element_by_class_name(“page-input”).clear()
driver.find_element_by_class_name(“page-input”).send_keys(‘2’)
driver.find_element_by_class_name(“page-input”).send_keys(Keys.ENTER)
如果小伙伴成功实现了上面的操作,其实大体的爬取工作已经差不多