下面是一个简单的爬虫实例,使用Python的requests库来发送HTTP请求,并使用lxml库来解析HTML页面内容。这个爬虫的目标是抓取一个电影网站,并提取每部电影的主义部分。
首先,确保你已经安装了requests和lxml库。如果没有安装,可以通过pip安装它们:
pip install lxml
安装好lxml库后,就可以在Python代码中通过from lxml import etree来导入etree模块,并使用它提供的各种功能。
然后,我们可以编写如下的爬虫脚本:
import re
import fake_useragent
import requests
from lxml import etree
if __name__ == '__main__':
# UA伪装
head = {
"User-Agent": fake_useragent.UserAgent().random
}
fp = open("./douban", "w", encoding="utf8")
# 1.url
for i in range(0,250,25):
url = "https://movie.douban.com/top250?start={i}&filter=