Scrapy框架抓取豆瓣电影的小爬虫学习日记(一)

        安装完Scrapy框架,就很想试一下,平时对电影感兴趣,于是想着去豆瓣电影爬取一些电影资料,和我若干T的电影资源对接一下,哈哈!

        Scrapy项目创建好之后,会默认生成项目文件夹和对应的文件,具体的大家可以查些资料。

         1、首先创建爬虫模块,保存在spiders目录下,取名doubanspider.py。

        其中,start_urls就是你第一个进入的URL地址。

        当然,为了不被网站屏蔽掉,伪装一个模拟器也是比较重要的,user_agent就是做这个的。

        parse是Spider的一个方法,被调用时,每个初始URL响应后返回的Response对象,将会作为唯一的参数传递给该方法。该方法负责解析返回的数据(responsedata)、提取数据(生成item)以及生成需要进一步处理的URL的Requ对象。

class DoubanSpider(scrapy.spiders.Spider):
    name = 'douban'
    allowed_doumains = ["douban.com"]
    start_urls = ["https://movie.douban.com"]

    user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0'  # 模拟浏览器
    headers = {'User-Agent': user_agent}


    de
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值