使用scrapy框架爬取豆瓣电影top250信息

本文详细介绍了如何使用Scrapy框架爬取豆瓣电影Top250的完整过程,包括创建项目、定义爬虫、解析数据、存储信息及处理图片下载。在解析过程中遇到的403错误通过模拟浏览器请求头得以解决,同时通过Items和Pipelines分别处理数据结构和存储。在遇到robots.txt限制时,选择忽视以完成图片下载。
摘要由CSDN通过智能技术生成

看了几篇博客,跟着其他大佬的讲解学习了一下使用scrapy框架爬取网站信息,然后自己趁热打铁一波爬取一下豆瓣电影top250

运行环境

 1. win7-64bit
 2. python 3.5.3

可以看到该页面结构如下图
这里写图片描述

而要爬取的部分为
这里写图片描述

通过查看源代码,需要解析的代码就是这么一部分

<li>
  <div class="item">
    <div class="pic">
      <em class="">1</em>
        <a href="https://movie.douban.com/subject/1292052/">
        <img alt="肖申克的救赎" src="https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p480747492.webp" class="">
        </a>
    </div>
    <div class="info">
      <div class="hd">
        <a href="https://movie.douban.com/subject/1292052/" class="">
          <span class="title">肖申克的救赎</span>
          <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
          <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>
        </a>
        <span class="playable">[可播放]</span>
      </div>
      <div class="bd">
        <p class="">
                          导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>
                            1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情
     
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值