python爬虫实验报告_爬取curlie的实验报告

本次实验旨在爬取Curlie网站的健康目录及其下属所有站点资源,包括标题、网址和摘要。使用Python 3.6.1和Scrapy 1.5.0作为采集工具。首先,创建Scrapy项目并爬取health页面的站点信息。然后,递归遍历health目录,处理爬虫过程中遇到的错误,如缺少request模块导入。最终,成功获取到大部分目录及数据,但最后一级目录因存在空格等问题未能完全抓取。爬取结果已得到部分数据。
摘要由CSDN通过智能技术生成

一、实验目标

爬取curlie中health的目录及其收录网站资源,网站的字段包括标题、网址、摘要。

57a2d7e2a261

All Sites

二、采集工具

python 3.6.1

scrapy 1.5.0

三、采集过程

1.爬取health页面下的sites

建立scrapy项目,爬取curlie网站health页面的sites,爬取sites的标题、链接和摘要。所以先修改items.py文件。

57a2d7e2a261

爬取health页面的sites,限制爬虫爬取范围和seeds

57a2d7e2a261

运行爬虫后,爬取成功

57a2d7e2a261

2.遍历health目录

爬取成功后,分析到health下子目录页面布局和health页面布局相同,所以打算递归遍历整个health目录,每个页面执行sites爬取操

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值