python存储数据的工具_GitHub - scy1994j/Python-scrapy: python爬虫利器，整个项目关于scrapy基础学习,爬取数据存储，以及利用python非常牛逼的数据分...

魅惑蓝心

于 2020-12-29 01:13:32 发布

阅读量116

点赞数

文章标签： python存储数据的工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_32346177/article/details/112010787

版权

Scrapy-skill

在HTML提取信息,scrapy提供了XHTMl来获取想要的信息，一些细节可以在文档中获取,这里记录了如何利用 Chorme F12来获取范式，如下图：

Scrapy-douban

探索中

Scrapy-meizi

说明

本来练手 Scrapy 去爬妹子图，google了一下，早就有人写出来了, 参考地址,我的爬虫基本上都是 Copy的。走了一遍逻辑，分析了页面构造。

准备

安装过程有点麻烦，主要我们在安装Python的时候，有可能你系统是64位，但是却安装了32位的Python，导致你后来安装Python的库都选择64位，其实应该是32位。

运行

下载整个工程

cd 进入包含spiders文件夹的目录

cmd中输入：scrapy crawl meizitu

[妹子]图片

先看妹子图,这么多好看的图,拔下来慢慢玩。

Scrapy

一般的写法也可以爬图片，这次为了体验一下爬虫神奇，选择了 Scrapy 这个大杀器,好处自然多多的，起码不用担心被封，总之很多不必要的麻烦都不用去考虑了,最重要的是它为爬虫而生。

分析1

进入妹子官网，其地址栏 URL 为 meizitu.com:

没错红色的URL地址，即为第一张那个妹子的系列图片,我们肯定要获取这个 URL,点击该 URL，页面如下：

!

没错，这个页面都是这个妹子的图片，查看源码获得图片链接即最后要下载的：

很容易知道,这就是我们最后要下载的图片链接。

分析2

上面说了，我们必须要弄明白怎么从首页跳转到第一个，第二个...页面去，这样才够动态。我们点击第一页，注意不是首页，发现页面结构如下图所示，可以看到每一个妹子都不止一张图片，我们就要获取该妹子的 URL，然后进入其主页，获取图片系列 URL，另外可以看到第一页地址栏的 URL：

如上图为首页最下面的连接URL，查看红色部分，发现其为下一个页面的相对URL，补全路径，与我们之前分析的下一个页面 URL 为 “http://www.meizitu.com/a/list_1_1.html” 相同，这样就简单了，我们后面只需要重复前面的动作即可。因为每个页面都会指定下一个页面的 URL。

代码

仓库代码解释更为详细。

结果

我是好孩子，就下几张而已。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。