pyspider入门

一下内容全是根据自己理解所写,如果有异议欢迎提出!!!

 

前言:

因为公司项目需要批量爬取网站内容,所以就学习了pyspider爬虫框架,博主之前用爬虫都是scrapy框架的,接触了pyspider框架之后感觉中国人还是相当牛批的,能写出这么好的轻量级的框架。话不多说,进入正题!!!

内容:

1.既然要使用pyspider框架肯定要先下载,博主是从命令行内下载的--pip install pyspider,也可以从它的官方文档内下载的。

2.下载之后要在命令行内输入pyspider命令,然后在浏览器内输入localhost:5000就可以打开pyspider了

 打开之后点击右上角的create创建项目,这些其实在它的中文文档内都有具体的说明,在此不做介绍。

3.

创建项目成功之后就会出现上图内容,这里有三个函数需要介绍一下:

1.on_start函数,这个是用来解析主URL的,然后通过callback将解析的传入到index_page函数内

2.index_page函数,这个是从主URL解析的内容进行列表页的解析,可以在doc内写入css选择器代码进行子url的选择,如果在这个函数内无法解析到详情页可以在下面添加一个list_page函数,内容都是一样,只不过list_page函数是进行详情页的解析

3.detail_page函数,这个是获取具体数据的内容,可以在doc内写入css选择器代码进行具体字段的抓取。

4.因为项目中并不涉及到保存库,所以我自己也就没有去写关于如何保存数据库。

 

这个页面的下边有几个选项也是非常有用的:

从左到右

1.这个是css选择器的辅助,点击这个之后,在页面内点击图片等都会出现他的标签,然后可以copy到自己的代码内,很方便

2.web是可以显示出自己爬下来的页面,可以判断是不是自己想要的页面,然后在页面内可以使用css选择器

3.这个就是页面的html代码了(我没用过)

4.这个是可以跟踪自己爬取页面内的url,说简单点就是可以看到自己爬下来的页面内可以点击的url(自己的理解,可能跟官方不一样)

5.最后一个是自己想要的网络数据的内容

就先写这些吧,毕竟才用了两天,如果后面有新的心得会继续更的。。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值