Python爬虫从入门到精通:（25）scrapy框架02_scrapy框架的基本使用_Python涛哥

最新推荐文章于 2024-09-15 22:31:42 发布

Python涛哥

最新推荐文章于 2024-09-15 22:31:42 发布

阅读量205

点赞数

分类专栏： python 爬虫文章标签： python 爬虫 pycharm

本文链接：https://blog.csdn.net/tao5090694/article/details/120686965

版权

python 同时被 2 个专栏收录

48 篇文章 14 订阅

订阅专栏

爬虫

45 篇文章 18 订阅

订阅专栏

scrapy的基本使用

创建一个工程

命令：scrapy startproject ProName

# 比如这里我创建一个工程，名字叫demoPro
# 打开终端，输入：
scrapy startprojiect demoPro

在这里插入图片描述

目录结构

这里先介绍2个，后续学习中再介绍其他

在这里插入图片描述

 `spiders`文件夹:爬虫文件夹

 	-  必须要存放一个爬虫源文件 

 `settings.py` : 工程的配置文件

cd ProName

创建好工程后，我们需要先进入项目目录
```
# 在终端输入
cd demoPro
```
创建爬虫源文件
- 命令：scrapy genspider spiderName www.xxx.com
- 编写对应的代码在爬虫文件中

在这里插入图片描述

其中：

- demo 是爬虫源文件的名称
- 网址可以先随便写

然后我们来看下默认生成的代码：

在这里插入图片描述

执行工程

我们修改下要爬虫的网址

import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'
    allowed_domains = ['www.baidu.com']
    start_urls = ['https://www.baidu.com/']

    def parse(self, response):
        pass

执行工程命令：scrapy crawl spiderName

# 终端输入
scrapy crawl demo

在这里插入图片描述

上面就是scrapy基本操作使用步骤！
但我们看到，并没有爬取到我们想要的结果，难道还需要设置什么吗？

是的！我们下节课来学习scapy的简单爬虫配置！
关注Python涛哥！学习更多Python知识！

Python涛哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录