Scrapy框架学习笔记(一)

Scrapy框架学习笔记(一)

关于 Spider


概念

用于从Scrapy(内部)传递过来的Response对象中,提取数据,并装进Items对象里,然后返回给Scrapy处理

怎么用

  • 创建Spider文件

项目/Spiders/

添加Spider类,如:文件名,类名,其属性name的最好一致

  • 在文件里写到
import scrape
class 类名(spider):
    name = 类名
    # ...
    # ...
  • scrapy 如何启动你写好的spider类

在命令行里,你的根目录下输入:scrapy crawl 类名

  • 定制spider的行为

– (默认),提前写好你要分析的url,和通用的parse方法,来决定你要怎么分析URL里Response的内容

– 自定义的,写好你要分析的URL,及其对应的URL的回调函数(非parse),来不同地分析对应URL的response的内容

  • 如何分析Response里的内容

– 单纯的填充Item对象,并返回给Spider

– 深度的分析,Response里的其他url,然后在进一步的设计其回调函数

  • 其他: 让你的Spider,可以接收从命令行而来的参数

  • 其他:如何从Response的内容里,遍历快捷的获取数据

使用selector选择器

  • 使用Scrapy内置的多种spider,来实现更多的功能

  • 自定义自己的Spider,实现更多你想要的内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值