Scrapy项目的创建及启动

最新推荐文章于 2024-04-12 22:30:58 发布

hiyunie

最新推荐文章于 2024-04-12 22:30:58 发布

阅读量563

点赞数

分类专栏： scrapy框架

本文链接：https://blog.csdn.net/qq_45202835/article/details/105848111

版权

scrapy框架专栏收录该内容

2 篇文章 0 订阅

订阅专栏

安装scrapy库

pip install scrapy

项目的创建

在cmd明命令下输入scrapy startproject 项目名

例如

scrapy startproject baidu

创建完成

在这里插入图片描述

设置编译环境

在这里插入图片描述

新建模板

Scrapy genspider [spider名称] [爬取网址]

在这里插入图片描述

打开这个文件

在这里插入图片描述

文件内容如下

# -*- coding: utf-8 -*-
import scrapy


class BaiduSpiderSpider(scrapy.Spider):
    name = 'baidu_spider'
    allowed_domains = ['www.baidu.com']
    start_urls = ['http://www.baidu.com/']
	
	# 处理下载器传送过来的response
    def parse(self, response):
	# response.text str类型
	# response.body bytes类型
        pass

#name:spider名称，在后面启动spider爬虫的时候需要使用
#allowed_domains:二次请求
#start_urls:需要让scrapy开始爬取的url

更改setting

1.不遵守robots协议
在这里插入图片描述

设置请求头

添加headers并取消注释

在这里插入图片描述

如下图

在这里插入图片描述

运行scrapy项目

scrapy crawl spider名称

我们运行刚才创建的baidu_spider

在这里插入图片描述

加上 --nolog可以不打印日志文件

在这里插入图片描述

可以看出我们多了一个baidu.html的文件

在这里插入图片描述

hiyunie

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Scrapy项目的创建及启动

安装scrapy库pip install scrapy项目的创建在cmd明命令下输入scrapy startproject 项目名例如scrapy startproject baidu创建完成设置编译环境新建模板Scrapy genspider [spider名称] [爬取网址]打开这个文件文件内容如下# -*- coding: utf-8 -*-impo...
复制链接

扫一扫