最近因项目需要,学习了下爬虫。之前都是完成的静态网页的爬去,但大部分网页都是动态加载AJAX,所以学习了selenium。当然也可以通过在network中查找隐藏的网页内容,在利用requests去爬去相关内容。本次主要是为了学习selenium,爬取某蜂窝的热门游记。
from selenium import webdriver
from selenium.webdriver.common.by import By
import re
import time
def load_web(url):
#打开火狐
browser = webdriver.Firefox()
browser.get(url)
#page = brower.find_element(By.CSS_SELECTOR, 'a.pi')
time.sleep(3)
page = 0
#游记名称及简介
html_all = []
content_all = []
#页码
while page < 10:
html = browser.find_elements_by_css_selector('#_j_tn_content > div.tn-list > div > div.tn-wrapper > dl > dt > a')
content = browser.find_elements_by_css_selector('#_j_tn_content > div.tn-list > div > div.tn-wrapper > dl > dd > a')
html_all.append(html)
content_all.append(content)
#翻页
br