一、实验目的
- 掌握网络爬虫的原理;
- 使用Python语言编写爬虫代码;
- 爬取给定网站的所有发帖数据;
二、实验内容
-
爬取一个网站中的数据需要做以下准备工作,如图所示:
2. 代码
设置为复杂访问信息,即添加请求头信息。
#爬取豆瓣书籍
import requests
from bs4 import BeautifulSoup
url = "https://book.douban.com/top250" # 要爬取的网页
# headers请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
res1 = requests.get(url, headers=headers)
print(res1.status_code) # res1.status_code是状态码的意思
# 输出 200, 则表明我们的步骤正确
soup = BeautifulSoup(res1.text, 'html.parser')
# print(soup)
pl2s = soup.find_all('div', class_='pl2') # class=用class_=表示
print(pl2s)
for pl2 in pl2s:
tag = pl2.find('a')
link = tag['href']
name = tag['title']
print(name, link)
爬取的结果: