scrapy方法总结

最新推荐文章于 2024-01-06 12:53:04 发布

努力敲代码的松芽

最新推荐文章于 2024-01-06 12:53:04 发布

阅读量251

点赞数

分类专栏： # 爬虫文章标签： python Scrapy

本文链接：https://blog.csdn.net/sinat_38944746/article/details/103673433

版权

8 篇文章 0 订阅

订阅专栏

方法或参数名	用法
name	每个项目唯一的名字，用来区分不同的 Spider
allowed_domains	是允许爬取的域名，如果初始或后续的请求链接不是这个域名下的，则请求链接会被过滤掉
start_urls	包含了 Spider 在启动时爬取的 url 列表，初始请求是由它来定义的
parse	Spider 的一个方法。默认情况下，被调用时 start_urls 里面的链接构成的请求完成下载执行后，返回的响应就会作为唯一的参数传递给这个函数。该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求。

方法或参数名	用法
process_item()	有两个参数。参数item：每次 Spider 生成的 Item 都会作为参数传递过来。参数 spider：就是 Spider 的实例。该方法必须返回包含数据的字典或 Item 对象，或者抛出 DropItem 异常。