1、创建一个新项目
scrapy startproject 项目名
2、确定需要爬取的数据(目标字段)
在项目所在的同名文件夹下,打开items.py文件开始创建目标字段
class WorkDetail(scrapy.Item):
# 岗位名称
workname = scrapy.Field()
# 岗位人数
worknum = scrapy.Field()
# 岗位职责
workdetail = scrapy.Field()
3、创建爬虫程序
scrapy genspider 爬虫的名字 指定爬取的域名地址
4、修改爬虫程序
start_urls = ['http://www.skeyedu.com/gw/recruitment/recruitment.html']
修改初始的爬取起始地址
def parse()这个方法,将来是用来处理的response响应对象
5、爬取
scrapy crawl 爬虫名