Scrapy入门

最新推荐文章于 2024-10-14 09:08:48 发布

猎剑

最新推荐文章于 2024-10-14 09:08:48 发布

阅读量134

点赞数

分类专栏：爬虫 scrapy 文章标签： python

本文链接：https://blog.csdn.net/weixin_42393089/article/details/104025816

版权

4 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试

 #在安装配置好Python3环境下
 pip install scrapy

scrapy scrapy startproject projectname

#创建一个名为daqiandan的爬虫，并指定爬取域的范围
scrapy genspider daqianduan "daqianduan.com"

在这里插入图片描述

name = “” ：这个爬虫的识别名称，必须是唯一的，在不同的爬虫必须定义不同的名字。

allow_domains = [] 是搜索的域名范围，也就是爬虫的约束区域，规定爬虫只爬取这个域名下的网页，不存在的URL会被忽略。

start_urls = () ：爬取的URL元祖/列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。

parse(self, response) ：解析的方法，每个初始URL完成下载后将被调用，调用的时候传入从每一个URL传回的Response对象来作为唯一参数，主要作用如下：

负责解析返回的网页数据(response.body)，提取结构化数据(生成item)
生成需要下一页的URL请求

scrapy crawl spidername

关注

专栏目录