简言:
python最近越来越火了,我也跟着潮流学习了一把,今天写的就是教大家如何通过 简简单单 的二十几行代码爬取豆瓣前250名的高分电影名。
第一步:导入模块
导入我们所需要的模块,这里我们使用到的有三大模块
(导入的模块都是需要预先安装的,不知道如何安装的朋友可先移步到链接: 模块安装.)
- requests:用于访问网络资源
- lxml:用于网页的解析
- BeatifulSoup:通过解析文档为用户提供需要抓取的数据
import requests
import lxml
from bs4 import BeautifulSoup
from lxml import etree
第二步:设置请求路径
这里我们设置我们需要请求的网页路径,本次爬取的网页是豆瓣前250高分电影排行榜
链接: https://movie.douban.com/top250.
url = 'https://movie.douban.com/top250'
第三步:设置请求头
因为部分网页是不能直接通过爬虫去爬取数据的,这里我们设置请求头,来模拟我们是通过浏览器去进行的网页访问。
hread = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
'Referer': 'https://movie.douban.com/'
}
我们可以通过打开浏览器的任意网页,按F12后查看NetWork,刷新网页后,点击任意一 .js 文件查看自己浏览器的请求头。
第四步:请求网页
这里的hread就是我们刚刚设置的请求头。
response = requests