这是一个简单的python小爬虫,登录本人知乎的个人中心,通过关注者即可实现爬虫在页面间的连接,先看看爬取的效果,虽然简单却挺有趣:
(我只截取了一部分图片,总的图片在5K张左右,如果需要还可以爬取更多)
然后我来分析一下爬虫的设计过程:
- 通过分析知乎网页的源代码标签,找到用户块的img标签以及a标签的位置和对应关系
- 通过携带已知cookie模拟登录网站
- 通过用户间互相关注的属性进行链接的跳转,并将爬取到的所有链接存放至列表
- 遍历列表,将用户名与头像属性一一对应,并下载到本地
-
- over
<a title = "..."
data-tip = "..."
class = "..."
href = "...">
<img src = "..." class = "...">
</a>
的a标签中,并且可以看到a标签的class属性都为"zm-item-link-avatar",头像图片所在的img标签class属性都为