一、框架示意图
Scrapy由 Python 编写,是一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
二、爬虫人员的主要工作
1、创建一个Scrapy项目
2、定义提取的Item
3、编写爬取网站的 spider 并提取 Item
4、编写 Item Pipeline 来存储提取到的Item(即数据)
三、scrapy基本流程
四、scrapy 框架各部分详解
1、 Scrapy Items :定义您想抓取的数据
import scrapy
class TorrentItem(scrapy.Item):
name = scrapy.Field()
2、spiders:编写提取数据的Spider
1):定义初始</