前言
Python拥有非常多的有意思的库,让开发出一款小程序所需的精力比使用其他语言相对较少了些,这才有了这篇文章。
0x001
在开始编程之前,我们需要安装一些库,今天用到有request,csv,lxml,time。 其中request和lxml需要另外下载。如有需要可以在百度上搜索。
0x002
本人呢比较喜欢看美剧,每天都会去看影视网站有没有更新,自从我学习了爬虫,我就在想,我爬下来直接看不好吗,说干就干!
首先,我们先创建个项目,添加一个fielm.py文件,让我们开始码代码吧。 wait,我们应该先分析下需求再开始,先看看网页的布局
这就是我们将要爬取的网页了,可以看到每个电影都以一栏栏的方式显示着,让我们来看看源码是怎样的
按F12进入开发者模式,点开一个标签,我们可以发现,第一栏都对应一个<div>标签,里边包含一个<a>,<span>,<div>这三个子标签,在<a>标签中,href属性指向了这个电影的内容主页 ,如下图中的网址,和href里的是不是一样呢。
我们继续分析这个电影内容页面,能看到有主演,导演,电视台,类型等一些信息,如下图,这些东西都在<div>的标签中,每个小项,例如主演,在<li>中,其中我们能在网页中看到的文字,在源码中也是以正常文字方式的书写的,这就太方便了,那我们先分析到这里,这下可以开始码代码了。