在进行网页抓取的时候,也许会碰到这样的问题:加载的页面要通过下拉条滑动才能显示完整的网页信息,这种网页也是通过js渲染出来的。
解决方法1:
通过selenium模拟浏览器,然后设置浏览器高度足够长,然后延时使之能够将页面的内容都能够加载出来
from selenium import webdriver
driver = webdriver.Firefox()
driver.set_window_size(1000,30000)
driver.get(url)
time.sleep(5)
解决方法2:
通过模拟浏览器去执行js去拉动滑滚条
from selenium import webdriver
driver = webdriver.Firefox()
driver.get(url)
driver.execute_script("window.scrollBy(0,3000)")
time.sleep(1)
driver.execute_script("window.scrollBy(0,5000)")
time.sleep(1)
像这种方法你得根据加载的内容去判定下拉的位置和次数,否则会只能获取到部分内容