使用scrapy框架爬取豆瓣电影top250信息

最新推荐文章于 2024-09-18 08:39:42 发布

Li_jm

最新推荐文章于 2024-09-18 08:39:42 发布

阅读量8.7k

点赞数 11

分类专栏： scrapy学习笔记文章标签：爬虫-python

本文链接：https://blog.csdn.net/ljm_9615/article/details/76694188

版权

本文详细介绍了如何使用Scrapy框架爬取豆瓣电影Top250的完整过程，包括创建项目、定义爬虫、解析数据、存储信息及处理图片下载。在解析过程中遇到的403错误通过模拟浏览器请求头得以解决，同时通过Items和Pipelines分别处理数据结构和存储。在遇到robots.txt限制时，选择忽视以完成图片下载。

摘要由CSDN通过智能技术生成

看了几篇博客，跟着其他大佬的讲解学习了一下使用scrapy框架爬取网站信息，然后自己趁热打铁一波爬取一下豆瓣电影top250

运行环境

 1. win7-64bit
 2. python 3.5.3

可以看到该页面结构如下图
这里写图片描述

而要爬取的部分为
这里写图片描述

通过查看源代码，需要解析的代码就是这么一部分

<li>
  <div class="item">
    <div class="pic">
      <em class="">1</em>
        <a href="https://movie.douban.com/subject/1292052/">
        <img alt="肖申克的救赎" src="https://img3.doubanio.com/view/movie_poster_cover/ipst/public/p480747492.webp" class="">
        </a>
    </div>
    <div class="info">
      <div class="hd">
        <a href="https://movie.douban.com/subject/1292052/" class="">
          <span class="title">肖申克的救赎</span>
          <span class="title">&nbsp;/&nbsp;The Shawshank Redemption</span>
          <span class="other">&nbsp;/&nbsp;月黑高飞(港)  /  刺激1995(台)</span>
        </a>
        <span class="playable">[可播放]</span>
      </div>
      <div class="bd">
        <p class="">
                          导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>
                            1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情