脉脉是一个实名职场社交平台。之前爬了脉脉职言版块,大概爬了4027条评论,本文对爬取过程给出详细说明,对于评论内容仅做可视化分析。
爬虫
仍然使用Python编程,对爬虫没兴趣的可直接跳过看下部分,不影响阅读。网址https://maimai.cn/gossip_list,需要先登录才能看到里面的内容。
爬取目标:
只爬文字部分,图片不考虑。
在浏览器内按F12打开开发者,向下滑,会看到很多gossip开头的json文件(不行的话刷新一下)。
右键open in new tab,里面是一条一条记录,text后面是评论内容。
我们感兴趣的信息是下面这些:
看一看每个网站的地址,都是page=数字结尾,所以爬的时候写一个循环,数字从1开始往后取就可以了。
json的最开头有total和remain两个参数,给出了目前所有可见评论剩余数和总数,可以作为循环的停止条件。
但比较坑的一点是,脉脉并不能可见所有评论,而且评论是不断刷新的,所有如果爬完一页循环到下一页或者尝试过很多次之后,它会提示你: