关于Scrapy的那些事儿（五）项目生成

最新推荐文章于 2024-08-30 18:29:12 发布

蜡笔小新星

最新推荐文章于 2024-08-30 18:29:12 发布

阅读量61

点赞数 1

分类专栏： Python爬虫文章标签： scrapy pycharm 学习经验分享

本文链接：https://blog.csdn.net/m0_54490473/article/details/122785819

版权

Python爬虫专栏收录该内容

10 篇文章 5 订阅

订阅专栏

项目生成

在terminal（终端）中，进入到spiders（项目目录亦可）目录，输入并执行下面一行命令：

# scrapy genspider 爬虫的名字 "初始的url"
scrapy genspider baidu "www.baidu.com"

在spiders目录里面会生成一个名为baidu的爬虫文件，它以系统模板生成的。

# -*- coding: utf-8 -*-
import scrapy
class BaiduSpider(scrapy.Spider):
	# 爬虫文件的名称：就是爬虫源文件的一个唯一标识
	name = 'baidu'
	
	# 允许的域名：用来限定start urls列表中哪些url可以进行请求发送
	allowed_domains = ['www.baidu.com']
	
	# 起始url列表：该列表中存放的url会被scrapy自动进行请求的发送
	start_urls = ['http://www.baidu.com/']
	
	# 用作于数据解析：response参数表示的就是请求成功后对应的响应对象
	def parse(self, response):
		pass

当然，也可以不用命令生成，可以自己创建文件，只不过使用命令创建的时候可以免去编写固定代码的麻烦。

蜡笔小新星

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于Scrapy的那些事儿（五）项目生成

项目生成在terminal（终端）中，进入到spiders（项目目录亦可）目录，输入并执行下面一行命令：# scrapy genspider 爬虫的名字 "初始的url"scrapy genspider baidu "www.baidu.com"在spiders目录里面会生成一个名为baidu的爬虫文件，它以系统模板生成的。# -*- coding: utf-8 -*-import scrapyclass BaiduSpider(scrapy.Spider): # 爬虫文件的名称：就是爬虫
复制链接

扫一扫

专栏目录