1.基本命令:
见之前博客:https://blog.csdn.net/machi1/article/details/100042830
2.实例:
- 在D盘创建一个文件夹testScrapy。
- 在命令行中将目录切换至testScrapy中。
- 在命令行中写scrapy startproject one来创建一个scrapy项目,其中one为项目名,可任意
- cd one,切换到该工程目录中
- scrapy genspider baidu baidu.com来创建一个爬虫,在上述命令中,baidu是项目名,baidu.com是要爬取的网址url,也就是start_urls
- 使用完该命令后会在spiders目录中多出一个baidu.py文件,接下来需要在该文件中编写爬虫的逻辑代码
3.生成的工程目录:
one/ 外层目录
scrapy.cfg 部署scrapy爬虫的配置文件
one/ scrapy框架的用户自定义python代码
__init__.py 初始化脚本
items.py Items代码模板(继承类)
middlewares.py Middlewares迪马模板(继承类)
pipelines.py pipelines代码模板(继承类)
settings.py scrapy爬虫的配置文件
spiders/ spiders代码模板目录(继承类)
4.发现了一篇介绍ItemLoader特别详细的文章:https://blog.csdn.net/zwq912318834/article/details/79530828
5.scrapy框架结构