一下内容全是根据自己理解所写,如果有异议欢迎提出!!!
前言:
因为公司项目需要批量爬取网站内容,所以就学习了pyspider爬虫框架,博主之前用爬虫都是scrapy框架的,接触了pyspider框架之后感觉中国人还是相当牛批的,能写出这么好的轻量级的框架。话不多说,进入正题!!!
内容:
1.既然要使用pyspider框架肯定要先下载,博主是从命令行内下载的--pip install pyspider,也可以从它的官方文档内下载的。
2.下载之后要在命令行内输入pyspider命令,然后在浏览器内输入localhost:5000就可以打开pyspider了
打开之后点击右上角的create创建项目,这些其实在它的中文文档内都有具体的说明,在此不做介绍。
3.
创建项目成功之后就会出现上图内容,这里有三个函数需要介绍一下:
1.on_start函数,这个是用来解析主URL的,然后通过callback将解析的传入到index_page函数内
2.index_page函数,这个是从主URL解析的内容进行列表页的解析,可以在doc内写入css选择器代码进行子url的选择,如果在这个函数内无法解析到详情页可以在下面添加一个list_page函数,内容都是一样,只不过list_page函数是进行详情页的解析
3.detail_page函数,这个是获取具体数据的内容,可以在doc内写入css选择器代码进行具体字段的抓取。
4.因为项目中并不涉及到保存库,所以我自己也就没有去写关于如何保存数据库。
这个页面的下边有几个选项也是非常有用的:
从左到右
1.这个是css选择器的辅助,点击这个之后,在页面内点击图片等都会出现他的标签,然后可以copy到自己的代码内,很方便
2.web是可以显示出自己爬下来的页面,可以判断是不是自己想要的页面,然后在页面内可以使用css选择器
3.这个就是页面的html代码了(我没用过)
4.这个是可以跟踪自己爬取页面内的url,说简单点就是可以看到自己爬下来的页面内可以点击的url(自己的理解,可能跟官方不一样)
5.最后一个是自己想要的网络数据的内容