学习爬虫的第一个入门项目,顺便说说VSCode + Anaconda 配置
Python Scrapy 的一些折磨人的坑。
开始搭建自己的项目
1、创建项目
这里我创建了一个ScrapyProject
文件夹,用来存放各个Scrapy项目,要爬的网站是:https://www.xicidaili.com/
所以项目命名为xicidailiSpider
cmd要cd到ScrapyProject
目录下,然后执行
scrapy startproject xicidailiSpider
这时候 scrapy 就会自动生成项目文件,注意下文件目录
xicidailiSpider
文件夹下还有一个xicidailiSpider
文件夹,以及一个scrapy.cfg
配置文件。
打开xicidailiSpider/xicidailiSpider
文件夹,可以看到这些文件,其中存放爬虫文件的就是spiders
文件夹
2、生成爬虫文件
cmd要cd到ScrapyProject/xicidailiSpider
目录下,然后执行
scrapy genspider xicidaili xicidaili.com
//释: 生成 爬虫名字 要爬的域名
这时候会发现spiders
文件夹多了一个xicidaili.py
,这就是我们要的爬虫文件