爬虫入门实例——使用正则表达式爬取猫眼100电影排行

前言

中间差不多有四个月没有写博客文章了,一方面是因为那时候基本上已经开学了,虽说是上网课,但是也不想学了这忘了那,所以也不太有充足的时间来自学一些东西了,好在我有一个完整的暑假,没有工作、不需要搞社会实践,所以就能静下心来好好学一学我心心念念的爬虫了。四个月的时间又没怎么接触python了,感觉再看到他的时候有一种熟悉但陌生的感觉,对于一个学生程序员来说,四个月不再接触一个东西是很容易遗忘的,毕竟我们学的东西太多了,不可能总在你脑子里占据着,再加上没有项目啥的给你练手,所以必要的复习是非常重要的,这也就是我写这么些博客的原因,有这么一个平台让我能在闲暇之时去看一看,也能帮助那些像我一样在学习时遇到困难的小伙伴,分享我的学习心得。

爬虫是什么

相信能看到我这篇文章的小伙伴应该对爬虫都有一定的了解,这里我就不赘述了,简单来说爬虫就是一个程序,它通过各种独到的方式来实现网页数据内容的获取,基本上可见即可爬,现在主流的爬虫程序都是由python来实现和开发的,python语言简单精炼特别适合用来写爬虫。

爬取猫眼电影100排行步骤

1.分析需要爬取的内容

下面就是猫眼100的网页界面了,每个影片都是由海报、片名、主演、上映时间、评分这几个方面构成的,我们的目的就是获取这100部影片的所有信息。
在这里插入图片描述

2.分析网页了解爬取的方式

鼠标右键单击检查,就能进入开发者模式界面,获取到网页的源代码等一系列信息。在这里插入图片描述
然后我们切换到Network这个监听组件然后选择第一个文件,点击Response查看网页的源代码,虽然我们之前再Elements组件中也能看到源码,但是这里的源码可能是经过JavaScript渲染过了的。
在这里插入图片描述

3.分析网页源码找到爬取思路

首先我们可以看到,每一部影片的信息都是在一个dd标签内部,然后一个一个的dd标签构成这100部影片信息。

<dd>
                        <i class="board-index board-index-1">1</i>
    <a href="/films/1375" title="活着" class="image-link" data-act="boarditem-click" data-val="{movieId:1375}">
      <img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="https://p0.meituan.net/movie/4c41068ef7608c1d4fbfbe6016e589f7204391.jpg@160w_220h_1e_1c" alt="活着" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href<
  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值