1、CSDN首页当鼠标滑动到页面底部时,展示的内容会增加。为了爬取更多的标题,我们使用selenium中的webdriver模拟浏览器的行为。
首先pip install selenium
代码片段:
from selenium import webdriver
import time
browser=webdriver.Chrome()
url="https://blog.csdn.net/"
browser.get(url)
js = 'window.scrollBy(0,5000)'
for i in range(1,10):
browser.execute_script(js)
time.sleep(1)
2、使用BeautifulSoup处理html文件
首先 conda install bs4
from bs4 import BeautifulSoup
html=browser.page_source
soup=BeautifulSoup(html)
#title包含在‘h2’的中
partTitle=soup.find_all('h2')
title=[x.find('a').string.replace(' ','') for x in partTitle]
结果