pyspider入门

最新推荐文章于 2024-08-09 07:12:28 发布

帅帅的橙子

最新推荐文章于 2024-08-09 07:12:28 发布

阅读量430

点赞数

分类专栏： python-pyspider 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39697564/article/details/83345013

版权

python-pyspider 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一下内容全是根据自己理解所写，如果有异议欢迎提出！！！

前言：

因为公司项目需要批量爬取网站内容，所以就学习了pyspider爬虫框架，博主之前用爬虫都是scrapy框架的，接触了pyspider框架之后感觉中国人还是相当牛批的，能写出这么好的轻量级的框架。话不多说，进入正题！！！

内容：

1.既然要使用pyspider框架肯定要先下载，博主是从命令行内下载的--pip install pyspider，也可以从它的官方文档内下载的。

2.下载之后要在命令行内输入pyspider命令，然后在浏览器内输入localhost：5000就可以打开pyspider了

打开之后点击右上角的create创建项目，这些其实在它的中文文档内都有具体的说明，在此不做介绍。

3.

创建项目成功之后就会出现上图内容，这里有三个函数需要介绍一下：

1.on_start函数，这个是用来解析主URL的，然后通过callback将解析的传入到index_page函数内

2.index_page函数，这个是从主URL解析的内容进行列表页的解析，可以在doc内写入css选择器代码进行子url的选择，如果在这个函数内无法解析到详情页可以在下面添加一个list_page函数，内容都是一样，只不过list_page函数是进行详情页的解析

3.detail_page函数，这个是获取具体数据的内容，可以在doc内写入css选择器代码进行具体字段的抓取。

4.因为项目中并不涉及到保存库，所以我自己也就没有去写关于如何保存数据库。

这个页面的下边有几个选项也是非常有用的：

从左到右

1.这个是css选择器的辅助，点击这个之后，在页面内点击图片等都会出现他的标签，然后可以copy到自己的代码内，很方便

2.web是可以显示出自己爬下来的页面，可以判断是不是自己想要的页面，然后在页面内可以使用css选择器

3.这个就是页面的html代码了（我没用过）

4.这个是可以跟踪自己爬取页面内的url，说简单点就是可以看到自己爬下来的页面内可以点击的url（自己的理解，可能跟官方不一样）

5.最后一个是自己想要的网络数据的内容

就先写这些吧，毕竟才用了两天，如果后面有新的心得会继续更的。。。。

帅帅的橙子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。