前言
上回我们通过分析实现了网易LOFTER图片的爬取,当时我们通过手动配置博主的三级域名实现爬虫。手动配置相对繁琐,为了解决这一问题,我们将进行版本升级。
在读此文之前建议先阅读:适合Python新手的爬虫练习:网易LOFTER图片爬虫(一)这篇文章。
分析
在升级之前,我们先进行以下思考:
问:我们需要什么?
答:我们需要三级域名
问:我们怎么获取三级域名?
答:获取方法有很多,可以尝试去抓包看看
问:有哪些方法可以实现?
答:方法有很多,我现在想到的方法中,我觉得有两个方法最靠谱,今天我们就讲讲其中一个简单的方法。
网页分析
当我们认可一个人的作品时,我们通常回去关注他。所有,这个方法是采集我们账号下关注的博主来实现爬虫,你想要谁的所有图片,你就关注谁。
开始分析
注册登录关注你要爬取的博主,这个我就不说了。传送门:网易LOFTER
登录后我们查看我们关注的博主:
在这里查看名为:UserBean.getUserFollowingList.dwr(谷歌翻译:用户Bean获取用户关注列表)
绿色区域是DWR数据,一个人的数据有十多行,我就不展示了。从之前项目中知道,我们需要博主id以及三级域名。
在这里我们通通可以获取到:
homePageUrl= *** # 三级域名
blogId= *** # id
blogNickName= *** # 博主昵称(方便文件夹命名)
还有很多可以获取,自己慢慢琢磨吧。
有了这些信息加上上一篇的分析,我想你也知道怎么做了吧。
总结
如果你对这个项目感兴趣,可以去GitHub上下载,我已经将项目上传至GitHub,传送门:网易Lofter图片爬虫
你也可以添加我的微信,一起成长一起进步。