Scrapy框架抓取豆瓣电影的小爬虫学习日记（一）

最新推荐文章于 2020-12-03 22:19:38 发布

jian_ming_zhang

最新推荐文章于 2020-12-03 22:19:38 发布

阅读量404

点赞数 1

文章标签： python scrapy 豆瓣爬虫框架

本文链接：https://blog.csdn.net/jian_ming_zhang/article/details/77877722

版权

安装完Scrapy框架，就很想试一下，平时对电影感兴趣，于是想着去豆瓣电影爬取一些电影资料，和我若干T的电影资源对接一下，哈哈！

Scrapy项目创建好之后，会默认生成项目文件夹和对应的文件，具体的大家可以查些资料。

1、首先创建爬虫模块，保存在spiders目录下，取名doubanspider.py。

其中，start_urls就是你第一个进入的URL地址。

当然，为了不被网站屏蔽掉，伪装一个模拟器也是比较重要的，user_agent就是做这个的。

parse是Spider的一个方法，被调用时，每个初始URL响应后返回的Response对象，将会作为唯一的参数传递给该方法。该方法负责解析返回的数据（responsedata）、提取数据（生成item）以及生成需要进一步处理的URL的Requ对象。

class DoubanSpider(scrapy.spiders.Spider):
    name = 'douban'
    allowed_doumains = ["douban.com"]
    start_urls = ["https://movie.douban.com"]

    user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0'  # 模拟浏览器
    headers = {'User-Agent': user_agent}


    de