简历爬取系列（一）——数据的选取

最新推荐文章于 2024-06-20 16:00:28 发布

LucyGill

最新推荐文章于 2024-06-20 16:00:28 发布

阅读量3.8k

点赞数 1

分类专栏：综合

本文链接：https://blog.csdn.net/LucyGill/article/details/89913943

版权

17 篇文章 1 订阅

订阅专栏

要想获得不同社交网络上的用户数据，现行的普遍方法就是网络爬虫（或直接下载）。抛开直接下载这一简单粗暴的方式来讲，爬取网络上的海量数据不失为一种不错的方式。然而，对爬取数据的正确选取对成功分析数据起到至关重要的作用。主要原因如下：

选取有意义的数据。若爬取的数据包含信息量小，或者爬取的不同社交网络上的数据没有重合属性，那么这些数据的意义并不大。目前通过推理得到的匹配结果一个是慢，另一个也不能保证准确率。
选取好获取的数据。如果数据难以获取或者网页上反爬虫机制高端，那么爬取数据的速度和难度可想而知。无法在短时间获取大量数据，就无法体现大数据的魅力与功效，因而不值得推崇。
选取自己了解的数据。如果一个人不熟悉他要爬取的数据，就要额外花时间进行数据的阅读与理解。以及筛选有用数据。

可能的数据：

CSDN：开始打算爬取这方面的数据，因为对其很熟悉。然而，其不能直接看到博主的所有粉丝（只能看到6个），也没有博客专家的排名，不便获取用户的链接。此外，很多用户在信息填写方面留有很多空白，大多数都没填写个人信息。因此，放弃之。
领英：注册了领英账号，发现其要求填写真实姓名、联系电话等较为真实的信息。然而，领英具有较好的反爬虫机制（网上这样说），而且领英上有很多外国人，不符合实验对中国用户进行研究的设定。但是领英也有好处，那就是其信息基本都是真实的，对于人的姓名、工作经历、教育经历等都是有质量保证的。
简书：和CSDN类似的数据，有与CSDN相同的问题：大多数人都没填写个人信息。但是，简书可以显示更多的粉丝（网传900个），也有热点话题，因此可以爬取一定数量的信息。但属性信息和真实度相对来说不能保质保量。
人人网：好处就是应该比较好爬，有现成的代码。里面的信息也较为真实。缺点就是信息过于陈旧，可能是多年前风靡一时的时候填写的资料。
58同城：像是中国版的领英。有很多求职信息，姓名、工作经历、教育经历等相对真实。可以作为爬取的一个信息来源。

经过上述分析，考虑先尝试爬取58同城上的相关信息。人人网也可以考虑作为爬取的内容之一（毕竟之前风靡校园，像我一样的同学人人都有账号）。简书中包含的属性信息还是太少，且真实性没法保证，付出与回报不成正比，暂不考虑。

关注