爬虫 - scrapy 框架 - 基本爬取流程

最新推荐文章于 2024-07-06 23:16:57 发布

LSYHhhhh

最新推荐文章于 2024-07-06 23:16:57 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33961117/article/details/90903201

版权

本文详细介绍了使用Scrapy框架进行网络爬取的基本流程，包括项目启动、Item对象定义、Spider爬取数据、执行爬虫及Pipeline数据存储到数据库的步骤。在Pipeline部分，讨论了存储、配置参数和激活管道等关键环节。

摘要由CSDN通过智能技术生成

目录

一、项目启动

二、Item 指定对象内容 - 类比 ORM

三、Spider 爬取数据

四、执行爬虫

五、pipeline 数据数据库存储

5-2 配置参数

5-3 激活管道

scrapy - 官方1.6版本文档

一、项目启动

scrapy 入门教程

确认环境

创建 scrapy 项目目录
进入自定义目录创建项目目录
scrapy startproject yourprojectname

二、Item 指定对象内容 - 类比 ORM

类似在ORM中做的一样，您可以通过创建一个 scrapy.Item 类，并且定义类型为 scrapy.Field 的类属性来定义一个 Item。

用于将数据封装成类，在其他地方进行基于类的快速调用。
import scrapy

class GetBabtItem(scrapy.Item):
    title = scrapy.Field()
    content = scrapy.Field()
    time = scrapy.Field()
    wherefrom = scrapy.Field()

三、Spider 爬取数据

Spiders/爬虫脚本.py - 制作爬虫爬取网页

注意点总结

scrapy.Spider 类内 name 属性必须重写，且值唯一

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。