scrapy目录结构

最新推荐文章于 2023-06-07 17:58:02 发布

途徒

最新推荐文章于 2023-06-07 17:58:02 发布

阅读量1.1k

点赞数

分类专栏： scrapy框架文章标签： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/big__v/article/details/78158794

版权

新建项目

scrapy startproject one_scrapy
scrapy genspider -l #查看爬虫模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic为模板新建job爬虫

项目目录结构

这里写图片描述

编辑爬虫文件

items.py

items.py 中定义了储存数据的字段名，在编辑此文件前需先分析要提取那些信息，定义好名称即可。

JobSpider.py

此文件是整个爬虫的发起点，启动爬虫时会从此文件中的start_urls里的url地址开始爬，中间经过了爬虫》引擎》调度器》下载器》引擎》爬虫，此时会返回一个response即为start_urls对应的网页文件，在此爬虫文件里还有一个parse函数，带有response这个参数，专门用来解析返回文件的处理，解析后的结果经提取处理后可存放到items.py定义的字段里（需要引入items.py中相应的类实例），如果要想将数据转存到数据库或其他格式，只需将item放出（yield i

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy目录结构

新建项目 scrapy startproject one_scrapy scrapy genspider -l #查看爬虫模板 scrapy genspider -t basic one_spider www.jobbole.com#以basic为模板新建job爬虫项目目录结构编辑爬虫文件 items.py items.py 中定义了储存数据的字段名，在编辑此文件前需先分析要
复制链接

扫一扫

专栏目录

途徒 CSDN认证博客专家 CSDN认证企业博客

码龄7年

24: 原创

20万+: 周排名

212万+: 总排名

5万+: 访问

: 等级

714: 积分

4: 粉丝

20: 获赞

4: 评论

25: 收藏

私信

关注

热门文章

分类专栏

最新评论

centos7安装python3及其配置pip（建立软连接）
Print_lin: 别光发图呀，这让我们这些伸手党怎么复制
bat命令后台运行
poterliu: 这样也行 [code=plain] @echo off if "%1" == "h" goto head mshta vbscript:createobject("wscript.shell").run("%~nx0 h",0)(window.close)&&exit :head [/code]
django 模板日期格式
weixin_43837480: 你好,想问一下传递到前端的是时间戳也可以通过这个方法转换吗? 我用了您的方法,就无法显示出内容了
selenium页面控制的问题
途徒: 最后的打印图片是为了测试是否控制了页面

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。