爬虫框架Scrapy

最新推荐文章于 2024-08-05 10:37:56 发布

辛勤小蜜蜂

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量1.3k

点赞数 4

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/qq_48288251/article/details/118603387

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了Python爬虫框架Scrapy的组件、安装步骤及创建爬虫项目的流程。Scrapy包括爬虫引擎、调度器、下载器、管道和爬虫组件，用于高效抓取和处理网页数据。通过实例演示了创建百度爬虫的过程，包括设置爬虫名称、目标URL及数据解析。在运行爬虫时，还需注意遵守或禁用robots.txt规则。此外，提供了在PyCharm中安装Scrapy的方法。

摘要由CSDN通过智能技术生成

一、爬虫框架Scrapy
1、使用python语言开发的爬虫组件，可以方便的从网站爬取需要的网页数据.
2、可以对网页元素进行解析并获取指定的数据，这些数据可以与实体中的属性进行对应。
3、 Scrapy的构成
(1) 爬虫引擎:用于控制整个爬取的流程
(2) 调度器:将请求爬取的网址排列为一个队列。
(3) 下载器：从请求的网址中下载网页内容
(4) 管道:对爬取的数据进行处理（持久化—保存到文件或者数据库中）
(5) 爬虫组件:爬取网页中需要的数据给item实体对象的属性赋值
在这里插入图片描述

二、scrapy的安装
1、再字符界面使用以下命令进行安装
pip install scrapy
使用国内镜像安装:
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
2、需要配置scrapy的环境变量,环境变量的配置如下:
在这里插入图片描述

3、再pycharm中安装scrapy
(1) 点击file—settings选择如下图所示选项
在这里插入图片描述

点击+号,出现下图所示
在这里插入图片描述

点击install package按钮进行安装

安装成功！
三、使用scrapy的创建爬虫项目
1、创建爬虫项目
在这里插入图片描述

scrapy startproject 爬虫项目名称
示例如下:创建百度爬虫
Scrapy startproject prjbaiduspider
在这里插入图片描述

2、创建爬虫
cd 爬虫工程目录
输入
scrapy genspider 爬虫名称爬取的域名
注意:爬虫名称不能和工程名称一致，并且，爬虫名称必须是唯一的
示例如下:
!](https://img-blog.csdnimg.cn/20210709114932943.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ4Mjg4MjUx,size_16,color_FFFFFF,t_70#pic_center)

修改爬虫文件，指定要爬取的网址
import scrapy

class BaiduspiderSpider(scrapy.Spider):
name = ‘baiduspider’#爬虫名称
allowed_domains = [‘baidu.com’]
start_urls = [‘https://www.baidu.com/’]

def parse(self, response):
    print(type(response))
    title=response.xpath("//title/text()").get()
    print(title)
    pass

4、运行爬虫
Scrapy crawl 爬虫名称

注意：此命令必须再xxx.cfg同级目录下执行

5、再settings.py文件中将爬取的规则设置为False

Obey robots.txt rules

ROBOTSTXT_OBEY = False

辛勤小蜜蜂

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录