深度爬取网易Lofter的爬虫

最新推荐文章于 2024-07-22 19:59:01 发布

Mike_Shine

最新推荐文章于 2024-07-22 19:59:01 发布

阅读量5.6k

点赞数 1

分类专栏：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mike_Shine/article/details/81201095

版权

本文介绍了如何使用爬虫深度爬取网易Lofter网站上的用户相册，包括从个人主页获取照片、从首页获取用户ID以及处理过程中遇到的参数时间戳问题。通过使用协程加速图片下载，利用Redis进行去重，最终实现全站用户相册的爬取。作者在周末成功爬取了268w用户ID，并在服务器上进行了进一步处理。

摘要由CSDN通过智能技术生成

这里的Lofter的工作是公司要的。主要目的是爬取大量用户的相册，之后做计算机视觉的训练集来用的。个人感觉这个是爬虫很常见的一个作用领域。（不过说实话，还是感觉有点low，觉得爬虫还是比较底层的工作。）

说回lofter。像这种爬取图片的一般都不难。但是Lofter这个网站，难就难在了其网页中用时间戳来做一系列的包参数，如果没有仔细研究的话，还是不好请求到包的。

下面看一下我是怎么完成整个工作的。

1. 爬取个人主页所有博客里面的照片

这里我借鉴了别人的工作基础。原帖见https://www.imooc.com/article/36533。

如果你认真研究完这个帖子，并且写一点代码来试一下里面关键的几步。就会明白里面包请求的规律。具体规律不赘述。

这里再根据我自己需求对代码做一些改变。并且加入协程来加快图片的下载速度。

这个部分对应的脚本是 lofter_spider_NameList_Concurrency.py

2. 从首页获取用户ID.

在上一步工作的基础之上，我们已经可以爬取某个用户主页里面的照片。要想获取大量的数据，只需要获取大量的用户ID即可。

这里我们从lofter的精选页http://loftermrjx.lofter.com/出发。可以看到这里面有推荐的照片。

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
深度爬取网易Lofter的爬虫

这里的Lofter的工作是公司要的。主要目的是爬取大量用户的相册，之后做计算机视觉的训练集来用的。个人感觉这个是爬虫很常见的一个作用领域。（不过说实话，还是感觉有点low，觉得爬虫还是比较底层的工作。）说回lofter。像这种爬取图片的一般都不难。但是Lofter这个网站，难就难在了其网页中用时间戳来做一系列的包参数，如果没有仔细研究的话，还是不好请求到包的。下面看一下我是怎么完成整个工作...
复制链接

扫一扫

专栏目录

Mike_Shine CSDN认证博客专家 CSDN认证企业博客

码龄6年

71: 原创

73万+: 周排名

96万+: 总排名

13万+: 访问

: 等级

1816: 积分

30: 粉丝

37: 获赞

7: 评论

150: 收藏

私信

关注

分类专栏

原创 29篇
爬虫 9篇
感悟 1篇
周工作计划 19篇
随记 3篇
简单算法 4篇
Linux 5篇
Python 6篇
互联网 1篇
计算机基础 5篇
通信 2篇
Java 4篇

最新评论

Requests请求时SSLError的解决方法。
程序猿皮卡丘: 关闭系统代理后再试
Linux学习--1
Tisfy: 我毫不犹豫的把楼主的这个帖子收藏了
JAVA环境变量配置 could not find java.dll
Tisfy: 这让我想起了先贤的一句话：天涯静处无征战，兵气销为日月光。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。