一、实验目标
爬取curlie中health的目录及其收录网站资源,网站的字段包括标题、网址、摘要。
All Sites
二、采集工具
python 3.6.1
scrapy 1.5.0
三、采集过程
1.爬取health页面下的sites
建立scrapy项目,爬取curlie网站health页面的sites,爬取sites的标题、链接和摘要。所以先修改items.py文件。
爬取health页面的sites,限制爬虫爬取范围和seeds
运行爬虫后,爬取成功
2.遍历health目录
爬取成功后,分析到health下子目录页面布局和health页面布局相同,所以打算递归遍历整个health目录,每个页面执行sites爬取操