任务描述
本关任务:学习 Scrapy 核心原理,并编写一个能够跑通 Scrapy 核心流程的爬虫小程序。
编程要求
根据提示,在右侧编辑器 Begin-End 区间补充代码,完善函数 parse(),将爬取到的网页内容写入文件baidu.html中,保存文件时使用相对路径baidu.html。
说明:
函数 parse()属于爬虫文件 world.py 的内容,整个爬虫项目文件结构可以通过点击右上角的文件夹图标查看,如下图所示:
文件夹展开后,可以看到爬虫项目文件结构如下:
测试说明
平台会检测是否有指定文件名的 HTML 文件生成,并解析文件中的文本是否是符合一定规则的。
开始你的任务吧,祝你成功!
代码文件:src/step2/HelloWorld/HelloWorld/spiders/world.py
# -*- coding: utf-