scrapy爬虫练习-3-27

最新推荐文章于 2020-11-02 19:40:50 发布

KIDD5433

最新推荐文章于 2020-11-02 19:40:50 发布

阅读量203

点赞数

分类专栏： scrapy 文章标签： python

本文链接：https://blog.csdn.net/KIDD5433/article/details/105151382

版权

scrapy 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

今天，没有练习什么，重新熟悉了一下有关selenium定位的两个关键的方法。xpath和css selector。这两种方法不仅能在selenium中使用，也能够很多解析网页的库中使用，且很简单，容易学。所以就出现了一个问题，没有需求，没需求就没有供给，就没有目标，就没有动力。我想既然没有什么需求，不如自己创造的需求，或者说创造点问题，借此来锻炼自己的技术。

在github上有很多爬虫项目，我看了一下简介，不少是需要模拟登陆的，这涉及到验证码的绕过，我一直奉行着能拖就拖的原则，越是要紧的东西，越是喜欢拖延（不太好）。在这些项目中有一个是看起来比较容易的。其需求如下：“可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中”。

我觉得我也能做，于是乎就想试试看，我的要求如下：

爬取豆瓣所有的电影。
需要包含电影的名字，导演名，主要演员，评分，片长，上映日期、国家，类型。
使用selenium渲染器去爬取。
保存为mysql版本，和csv版本。

截图如下：
在这里插入图片描述
其中我认为比较麻烦的一点是需要从主页中爬取出链接，然后在跳转去爬取主要信息，这里还涉及到滚动翻页的问题。

项目主要就是使用selenium，这个是一个自动化测试工具，也能够将代码中JavaScript和css效果渲染到页面上。这样就能够获得动态页面的效果。做到“所见即所得”。selenium类似的渲染工具在爬虫中很常用，经常用于绕过验证码和一些反爬虫。不过也有缺点，就是会降低爬虫效率。

为什么要爬取电影呢？我认为这是之前小项目的一个延伸，同时也能够提高自己的爬虫水平，做到循序渐进（就是懒）。同时又可以将selenium这个工具使用的更熟练。

结果会怎么呢？明天见。

KIDD5433

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy爬虫练习-3-27

今天，没有练习什么，重新熟悉了一下有关selenium定位的两个关键的方法。xpath和css selector。这两种方法不仅能在selenium中使用，也能够很多解析网页的库中使用，且很简单，容易学。所以就出现了一个问题，没有需求，没需求就没有供给，就没有目标，就没有动力。我想既然没有什么需求，不如自己创造的需求，或者说创造点问题，借此来锻炼自己的技术。在github上有很多爬虫项目，我看了...
复制链接

扫一扫