上回我们讲解了 Beautiful Soup 的基本使用方法,这次就带大家使用 Beautiful Soup 进行实战。这次要抓取的目标是豆瓣电影 TOP250,解析出其中的电源名称、评分、简单评价、评价人数等信息,其 base_url 是 https://movie.douban.com/top250。
其实简单的网络爬虫无外乎查看网页源码,从源码中获取自己想要的东西,然后对其进行处理。
1 解析 - 获取目标元素
我们首先按下 F12
看下目标远视眼的 HTML 源码:
通过查看页面元素代码可以看出:
- 电影条目是被
<ol class="grid_view">
所包围的; - 其中每个电影条目是一个
<li>
; - 另外,每页有 25 个条目,共 10 页,这意味着需要解析多页数据。
再来看下其中一个条目的源码:
<li>
<div class="item">
<div class="pic">
<em class="">1</em>
<a href="https://movie.douban.com/subject/1292052/">
<img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp" class=""></a>
</div>
<div class="info">
<div class="hd">
<a href="https://movie.douban.com/subject/1292052/" class="">
<span class="title">肖申克的救赎</span>
<span class="title"> / T