Beautiful Soup 爬虫实践

最新推荐文章于 2022-10-04 16:12:09 发布

hoxis

最新推荐文章于 2022-10-04 16:12:09 发布

阅读量470

点赞数

分类专栏： python学习有趣的Python 文章标签： Python 爬虫

本文链接：https://blog.csdn.net/bruce_6/article/details/80769392

版权

本文介绍了如何使用Beautiful Soup爬取豆瓣电影TOP250的电影名称、评分、评价人数等信息。解析了HTML源码，提取关键元素，并分享了下一页链接的解析方法。同时，提到了实际爬虫中可能遇到的认证和反爬问题。

摘要由CSDN通过智能技术生成

上回我们讲解了 Beautiful Soup 的基本使用方法，这次就带大家使用 Beautiful Soup 进行实战。这次要抓取的目标是豆瓣电影 TOP250，解析出其中的电源名称、评分、简单评价、评价人数等信息，其 base_url 是 https://movie.douban.com/top250。

其实简单的网络爬虫无外乎查看网页源码，从源码中获取自己想要的东西，然后对其进行处理。

1 解析 - 获取目标元素

我们首先按下 F12 看下目标远视眼的 HTML 源码：

豆瓣电影 Top 250

通过查看页面元素代码可以看出：

电影条目是被 <ol class="grid_view"> 所包围的；
其中每个电影条目是一个 <li>；
另外，每页有 25 个条目，共 10 页，这意味着需要解析多页数据。

再来看下其中一个条目的源码：

<li>
    <div class="item">
        <div class="pic">
            <em class="">1</em>
            <a href="https://movie.douban.com/subject/1292052/">
                <img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp" class=""></a>
        </div>
        <div class="info">
            <div class="hd">
                <a href="https://movie.douban.com/subject/1292052/" class="">
                    <span class="title">肖申克的救赎</span>
                    <span class="title">&nbsp;/&nbsp;T