Scrapy框架速通
文章目录
1. Scrapy的安装
Scrapy是一个异步爬取框架。
Scrapy安装命令为:
pip install scrapy
2. Scrapy基本命令
2.1 创建Scrapy项目
语法:scrapy startproject 项目名称
以mySpider为项目名称为例,创建一个Scrapy项目:
scrapy startproject mySpider
2.2 创建爬虫程序
创建爬虫程序前,首先需要先进入到刚刚创建的项目目录下: cd 项目名称
上边创建的项目文件夹的名称为
cd mySpider
然后创建一个爬虫程序,以豆瓣的网址为例:
https://www.douban.com/
scrapy genspider demo douban.com
scrapy genspider后边跟了两个参数,demo是爬虫程序的名称,demo后边的douban.com是目标网址的url,也表示允许爬取的范围,即只爬取该域名下的。
具体如下,可以根据需求修改、增添更多细节:
import scrapy
class DemoSpider(scrapy.Spider):
name = 'demo'
# 允许爬取的范围
allowed_domains = ['douban.com']
# 起始url
start_urls = [