编写Python爬虫需要以下步骤:
- 安装Python环境和相关库,如requests、beautifulsoup4等。
- 确定要爬取的网站,并确定需要抓取的内容。
- 分析目标网站的网页结构和数据请求方式。
- 编写代码发送请求获取网页内容,解析网页并提取需要的数据。
- 对数据进行清洗、存储或其他处理。
- 加入异常处理和反爬机制。
- 运行爬虫并调试代码。
下面是一个简单的Python爬虫示例,以获取豆瓣电影排行榜为例:
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/chart'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.select('.pl2 > a')
for movie in movies:
title = movie['title']
link = movie['href']
print(title, link)
该示例使用requests库发送网页请求,使用BeautifulSoup库解析网页内容,并提取了豆瓣电影排行榜中的电影标题和链接。