Scrapy框架学习笔记(一)
关于 Spider
概念
用于从Scrapy(内部)传递过来的Response对象中,提取数据,并装进Items对象里,然后返回给Scrapy处理
怎么用
- 创建Spider文件
项目/Spiders/
添加Spider类,如:文件名,类名,其属性name的最好一致
- 在文件里写到
import scrape
class 类名(spider):
name = 类名
# ...
# ...
- scrapy 如何启动你写好的spider类
在命令行里,你的根目录下输入:scrapy crawl 类名
- 定制spider的行为
– (默认),提前写好你要分析的url,和通用的parse方法,来决定你要怎么分析URL里Response的内容
– 自定义的,写好你要分析的URL,及其对应的URL的回调函数(非parse),来不同地分析对应URL的response的内容
- 如何分析Response里的内容
– 单纯的填充Item对象,并返回给Spider
– 深度的分析,Response里的其他url,然后在进一步的设计其回调函数
其他: 让你的Spider,可以接收从命令行而来的参数
其他:如何从Response的内容里,遍历快捷的获取数据
使用selector选择器
使用Scrapy内置的多种spider,来实现更多的功能
自定义自己的Spider,实现更多你想要的内容