scrapy练习_爬“糗事百科”
scrapy是一个爬虫用的脚手架,和用于搭建网站的vue差不多。具体我也不知道有什么用(~ _ ~ ")。
创建scrapy项目
首先创一个新建文件夹,之后打开jupyter notebook,虽然可以不打开,直接使用cmd,但是cmd的界面真是不太容易看,而且很乱。
- 在jupyter notebook界面中输入dir,确定我们进入了刚刚创建的文件夹中。
- 输入
! scrapy startproject qsbk
创建名为qsbk的scrapy项目
这样它就会为我们创建这样的脚手架(马赛克部分是后来的)
- 用“cd qsbk”进入自动创建的qsbk文件夹里
- 输入
! scrapy genspider qsbk_spider "qiushibaike.com"
创建名为"qsbk_spider"的py文件,后面是即将要爬的网站url,其实这个url后面也要改。
总的来说就是像这样
于是我们就创建了这些文件,爬虫脚手架就搭建完成了。
先做个准备运动,还有一个小实验
首先找到setting.py,里面有很多被注释掉的代码,都是给你备用的。
找到"ROBOTSTXT_OBEY",这是一个“君子协议”——网页会规定一些你不能爬的东西,但是我不听 。这个"ROBOTSTXT_OBEY"默认是True,所以要改成False,表示你不遵守这些协议。如果你遵守那就真的没什么好爬的了。
然后便是在下面找到"DEFAULT_REQUEST_HEADERS",加入U