简介和安装
Scrapy是一个快速功能强大的网络爬虫框架,不是一个函数功能库。
爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。
非常小的需求,用requests库
不太小的需求,用Scrapy框架
定制程度很高的需求(不考虑规模),自搭框架,requests > Scrapy
安装:Windows平台,cmd输入pip install scrapy,回车运行。
安装后测试成功与否:执行 scrapy ‐h
Scrapy爬虫的常用命令
例子源代码:
# -*- coding: utf-8 -*-
import scrapy
class DemoSpider(scrapy.Spider):
name = "demo"
start_urls = ['(填写一个url)']
def parse(self, response):
fname = response.url.split('/')[-1]
with open(fname, 'wb') as f:
f.write(response.body)
self.log('Saved file %s.' % name)