文章目录
前言
中间差不多有四个月没有写博客文章了,一方面是因为那时候基本上已经开学了,虽说是上网课,但是也不想学了这忘了那,所以也不太有充足的时间来自学一些东西了,好在我有一个完整的暑假,没有工作、不需要搞社会实践,所以就能静下心来好好学一学我心心念念的爬虫了。四个月的时间又没怎么接触python了,感觉再看到他的时候有一种熟悉但陌生的感觉,对于一个学生程序员来说,四个月不再接触一个东西是很容易遗忘的,毕竟我们学的东西太多了,不可能总在你脑子里占据着,再加上没有项目啥的给你练手,所以必要的复习是非常重要的,这也就是我写这么些博客的原因,有这么一个平台让我能在闲暇之时去看一看,也能帮助那些像我一样在学习时遇到困难的小伙伴,分享我的学习心得。
爬虫是什么
相信能看到我这篇文章的小伙伴应该对爬虫都有一定的了解,这里我就不赘述了,简单来说爬虫就是一个程序,它通过各种独到的方式来实现网页数据内容的获取,基本上可见即可爬,现在主流的爬虫程序都是由python来实现和开发的,python语言简单精炼特别适合用来写爬虫。
爬取猫眼电影100排行步骤
1.分析需要爬取的内容
下面就是猫眼100的网页界面了,每个影片都是由海报、片名、主演、上映时间、评分这几个方面构成的,我们的目的就是获取这100部影片的所有信息。
2.分析网页了解爬取的方式
鼠标右键单击检查,就能进入开发者模式界面,获取到网页的源代码等一系列信息。
然后我们切换到Network这个监听组件然后选择第一个文件,点击Response查看网页的源代码,虽然我们之前再Elements组件中也能看到源码,但是这里的源码可能是经过JavaScript渲染过了的。
3.分析网页源码找到爬取思路
首先我们可以看到,每一部影片的信息都是在一个dd标签内部,然后一个一个的dd标签构成这100部影片信息。
<dd>
<i class="board-index board-index-1">1</i>
<a href="/films/1375" title="活着" class="image-link" data-act="boarditem-click" data-val="{movieId:1375}">
<img src="//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
<img data-src="https://p0.meituan.net/movie/4c41068ef7608c1d4fbfbe6016e589f7204391.jpg@160w_220h_1e_1c" alt="活着" class="board-img" />
</a>
<div class="board-item-main">
<div class="board-item-content">
<div class="movie-item-info">
<p class="name"><a href<