深度爬取网易Lofter的爬虫

本文介绍了如何使用爬虫深度爬取网易Lofter网站上的用户相册,包括从个人主页获取照片、从首页获取用户ID以及处理过程中遇到的参数时间戳问题。通过使用协程加速图片下载,利用Redis进行去重,最终实现全站用户相册的爬取。作者在周末成功爬取了268w用户ID,并在服务器上进行了进一步处理。
摘要由CSDN通过智能技术生成

这里的Lofter的工作是公司要的。主要目的是爬取大量用户的相册,之后做计算机视觉的训练集来用的。个人感觉这个是爬虫很常见的一个作用领域。(不过说实话,还是感觉有点low,觉得爬虫还是比较底层的工作。)

说回lofter。像这种爬取图片的一般都不难。但是Lofter这个网站,难就难在了其网页中用时间戳来做一系列的包参数,如果没有仔细研究的话,还是不好请求到包的。

下面看一下我是怎么完成整个工作的。

 

1. 爬取个人主页所有博客里面的照片

这里我借鉴了别人的工作基础。原帖见https://www.imooc.com/article/36533

如果你认真研究完这个帖子,并且写一点代码来试一下里面关键的几步。就会明白里面包请求的规律。具体规律不赘述。

这里再根据我自己需求对代码做一些改变。并且加入协程来加快图片的下载速度。

这个部分对应的脚本是 lofter_spider_NameList_Concurrency.py

 

2. 从首页获取用户ID.

在上一步工作的基础之上,我们已经可以爬取某个用户主页里面的照片。要想获取大量的数据,只需要获取大量的用户ID即可。

这里我们从lofter的精选页http://loftermrjx.lofter.com/出发。可以看到这里面有推荐的照片。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值