1.首先找到一个指定的路径,比如桌面,cd过去
2.在终端输入创建项目的命令:scrapy startproject baidu
3.如图所示,则创建成功,然后输入提示的命令:cd baidu
4.在指定目录,则会生成一下文件:
其中:
spiders:以后所有创建的爬虫文件都会放在此文件夹下;
__init__.py:初始化文件;
items.py:存放数据模型;
middlewares.py:中间件,负责对内容进行处理;
pipelines.py:通常用来控制执行的顺序;
settings.py:设置项目的配置信息。
5.按照终端指示,依次输入指定的命令:
A cd baidu B scrapy genspider baiduSpider baidu.com
注意:爬虫的文件名不能与项目名字重合
6.执行完命令后,会在项目中生成一下文件:
7.基础介绍
import scrapy
class BaiduspiderSpider(scrapy.Spider):
# 爬虫名
name = 'baiduSpider' #一定要存在
# 允许爬虫的范围
allowed_domains = ['baidu.com']
start_urls = ['http://www.baidu.com/']
def parse(self, response):
# body 为响应体 而不是html中的body标签
print(response.body)
# 获取响应头
print(response.headers)
# 获取当前状态
print(response.status)
8.运行爬虫的程序:scrapy crawl baiduSpider
注:BaiduSpider 为爬虫名
9.爬虫运行前,关闭setting里面的robots协议
ps: cd .. :退回上级路径