Beautiful Soup 爬虫实践

本文介绍了如何使用Beautiful Soup爬取豆瓣电影TOP250的电影名称、评分、评价人数等信息。解析了HTML源码,提取关键元素,并分享了下一页链接的解析方法。同时,提到了实际爬虫中可能遇到的认证和反爬问题。
摘要由CSDN通过智能技术生成

上回我们讲解了 Beautiful Soup 的基本使用方法,这次就带大家使用 Beautiful Soup 进行实战。这次要抓取的目标是豆瓣电影 TOP250,解析出其中的电源名称、评分、简单评价、评价人数等信息,其 base_url 是 https://movie.douban.com/top250

其实简单的网络爬虫无外乎查看网页源码,从源码中获取自己想要的东西,然后对其进行处理。

1 解析 - 获取目标元素

我们首先按下 F12 看下目标远视眼的 HTML 源码:

豆瓣电影 Top 250

通过查看页面元素代码可以看出:

  1. 电影条目是被 <ol class="grid_view"> 所包围的;
  2. 其中每个电影条目是一个 <li>
  3. 另外,每页有 25 个条目,共 10 页,这意味着需要解析多页数据。

再来看下其中一个条目的源码:

<li>
    <div class="item">
        <div class="pic">
            <em class="">1</em>
            <a href="https://movie.douban.com/subject/1292052/">
                <img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp" class=""></a>
        </div>
        <div class="info">
            <div class="hd">
                <a href="https://movie.douban.com/subject/1292052/" class="">
                    <span class="title">肖申克的救赎</span>
                    <span class="title">&nbsp;/&nbsp;T
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值