python爬虫实验报告_爬取curlie的实验报告

最新推荐文章于 2021-06-20 16:37:19 发布

weixin_39638014

最新推荐文章于 2021-06-20 16:37:19 发布

阅读量1.4k

点赞数

文章标签： python爬虫实验报告

本次实验旨在爬取Curlie网站的健康目录及其下属所有站点资源，包括标题、网址和摘要。使用Python 3.6.1和Scrapy 1.5.0作为采集工具。首先，创建Scrapy项目并爬取health页面的站点信息。然后，递归遍历health目录，处理爬虫过程中遇到的错误，如缺少request模块导入。最终，成功获取到大部分目录及数据，但最后一级目录因存在空格等问题未能完全抓取。爬取结果已得到部分数据。

摘要由CSDN通过智能技术生成

一、实验目标

爬取curlie中health的目录及其收录网站资源，网站的字段包括标题、网址、摘要。

57a2d7e2a261

All Sites

二、采集工具

python 3.6.1

scrapy 1.5.0

三、采集过程

1.爬取health页面下的sites

建立scrapy项目，爬取curlie网站health页面的sites，爬取sites的标题、链接和摘要。所以先修改items.py文件。

57a2d7e2a261

爬取health页面的sites，限制爬虫爬取范围和seeds

57a2d7e2a261

运行爬虫后，爬取成功

57a2d7e2a261

2.遍历health目录

爬取成功后，分析到health下子目录页面布局和health页面布局相同，所以打算递归遍历整个health目录，每个页面执行sites爬取操

最低0.47元/天解锁文章

weixin_39638014

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。