爬虫入门实例——使用正则表达式爬取猫眼100电影排行

最新推荐文章于 2023-06-10 19:58:25 发布

the best messi

最新推荐文章于 2023-06-10 19:58:25 发布

阅读量2.1k

点赞数 4

分类专栏： Python爬虫文章标签： python 正则表达式爬虫

本文链接：https://blog.csdn.net/qq_43779324/article/details/107915707

版权

文章目录

前言
后记

前言

中间差不多有四个月没有写博客文章了，一方面是因为那时候基本上已经开学了，虽说是上网课，但是也不想学了这忘了那，所以也不太有充足的时间来自学一些东西了，好在我有一个完整的暑假，没有工作、不需要搞社会实践，所以就能静下心来好好学一学我心心念念的爬虫了。四个月的时间又没怎么接触python了，感觉再看到他的时候有一种熟悉但陌生的感觉，对于一个学生程序员来说，四个月不再接触一个东西是很容易遗忘的，毕竟我们学的东西太多了，不可能总在你脑子里占据着，再加上没有项目啥的给你练手，所以必要的复习是非常重要的，这也就是我写这么些博客的原因，有这么一个平台让我能在闲暇之时去看一看，也能帮助那些像我一样在学习时遇到困难的小伙伴，分享我的学习心得。

爬虫是什么

相信能看到我这篇文章的小伙伴应该对爬虫都有一定的了解，这里我就不赘述了，简单来说爬虫就是一个程序，它通过各种独到的方式来实现网页数据内容的获取，基本上可见即可爬，现在主流的爬虫程序都是由python来实现和开发的，python语言简单精炼特别适合用来写爬虫。

爬取猫眼电影100排行步骤

1.分析需要爬取的内容

下面就是猫眼100的网页界面了，每个影片都是由海报、片名、主演、上映时间、评分这几个方面构成的，我们的目的就是获取这100部影片的所有信息。
在这里插入图片描述

2.分析网页了解爬取的方式

鼠标右键单击检查，就能进入开发者模式界面，获取到网页的源代码等一系列信息。在这里插入图片描述
然后我们切换到Network这个监听组件然后选择第一个文件，点击Response查看网页的源代码，虽然我们之前再Elements组件中也能看到源码，但是这里的源码可能是经过JavaScript渲染过了的。

3.分析网页源码找到爬取思路

首先我们可以看到，每一部影片的信息都是在一个dd标签内部，然后一个一个的dd标签构成这100部影片信息。

<dd>
                        <i class="board-index board-index-1">1</i>
    <a href="/films/1375" title="活着" class="image-link" data-act="boarditem-click" data-val="{movieId:1375}">
      <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="https://p0.meituan.net/movie/4c41068ef7608c1d4fbfbe6016e589f7204391.jpg@160w_220h_1e_1c" alt="活着" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href<

最低0.47元/天解锁文章

the best messi

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
爬虫入门实例——使用正则表达式爬取猫眼100电影排行

中间差不多有四个月没有写博客文章了，一方面是因为那时候基本上已经开学了，虽说是上网课，但是也不想学了这忘了那，所以也不太有充足的时间来自学一些东西了，好在我有一个完整的暑假，没有工作、不需要搞社会实践，所以就能静下心来好好学一学我心心念念的爬虫了。四个月的时间又没怎么接触python了，感觉再看到他的时候有一种熟悉但陌生的感觉，对于一个学生程序员来说，四个月不再接触一个东西是很容易遗忘的，毕竟我们学的东西太多了，不可能总在你脑子里占据着，再加上没有项目啥的给你练手，所以必要的复习是非常重要的，这也就是
复制链接

扫一扫