scrapy python中文手册_scrapy 官方文档读完总结

经过一天多时间在wiki上将scrapy官方的翻译版快速读了一遍,对scrapy有了一个大概的了解和熟悉。下面做一个快速总结:1.创建项目:scrapy startproject tutorialcd tutorial #进入刚刚创建的文件夹内scrapy genspider 文件名 网站网址 #创建完成2.编写ItemItem 是保存爬取到的数据的容器;其使用方法和 python 字典类似, 并...
摘要由CSDN通过智能技术生成

经过一天多时间在wiki上将scrapy官方的翻译版快速读了一遍,对scrapy有了一个大概的了解和熟悉。下面做一个快速总结:

1.创建项目:

scrapy startproject tutorial

cd tutorial #进入刚刚创建的文件夹内

scrapy genspider 文件名 网站网址 #创建完成

2.编写Item

Item 是保存爬取到的数据的容器;其使用方法和 python 字典类似, 并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。如果item里未定义,spider所爬的数据是无法从传入进去的。

3.编写爬虫

Spider 是用户编写用于从单个网站(或者一些网站)爬取数据的类。其包含了一个用于下载的初始 URL,如何跟进网页中的链接以及如何分析页面中的内容, 提取生成item的方法。为了创建一个 Spider,您必须继承scrapy.Spider类, 且定义以下三个属性:

name: 用于区别 Spider。 该名字必须是唯一的,您不可以为不同的 Spider 设定相同的名字。

start_urls: 包含了 Spider 在启动时进行爬取的 url 列表。 因此,第一个被获取到的页面将是其中之一。 后续的 URL 则从初始的 URL 获取到的数据中提取。

parse()是 spider 的一个方法。 被调用时,每个初始 URL 完成下载后生成的Response对象将会作为唯一的参数传递给该函数。 该方法负责解析返回的数据(response data),提取数据(生成 item)以及生成需要进一步处理的 URL 的 `Request 对象。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值