scrapy爬虫练习-3-27

今天,没有练习什么,重新熟悉了一下有关selenium定位的两个关键的方法。xpath和css selector。这两种方法不仅能在selenium中使用,也能够很多解析网页的库中使用,且很简单,容易学。所以就出现了一个问题,没有需求,没需求就没有供给,就没有目标,就没有动力。我想既然没有什么需求,不如自己创造的需求,或者说创造点问题,借此来锻炼自己的技术。

在github上有很多爬虫项目,我看了一下简介,不少是需要模拟登陆的,这涉及到验证码的绕过,我一直奉行着能拖就拖的原则,越是要紧的东西,越是喜欢拖延(不太好)。在这些项目中有一个是看起来比较容易的。其需求如下:“可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中”。

我觉得我也能做,于是乎就想试试看,我的要求如下:

  1. 爬取豆瓣所有的电影。
  2. 需要包含电影的名字,导演名,主要演员,评分,片长,上映日期、国家,类型。
  3. 使用selenium渲染器去爬取。
  4. 保存为mysql版本,和csv版本。

截图如下:
在这里插入图片描述在这里插入图片描述
其中我认为比较麻烦的一点是需要从主页中爬取出链接,然后在跳转去爬取主要信息,这里还涉及到滚动翻页的问题。

项目主要就是使用selenium,这个是一个自动化测试工具,也能够将代码中JavaScript和css效果渲染到页面上。这样就能够获得动态页面的效果。做到“所见即所得”。selenium类似的渲染工具在爬虫中很常用,经常用于绕过验证码和一些反爬虫。不过也有缺点,就是会降低爬虫效率。

为什么要爬取电影呢?我认为这是之前小项目的一个延伸,同时也能够提高自己的爬虫水平,做到循序渐进(就是懒)。同时又可以将selenium这个工具使用的更熟练。

结果会怎么呢?明天见。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值