爬虫学得好监狱进的早_这款神器，堪称爬虫界的百宝箱！

weixin_39920338

于 2020-11-25 21:59:48 发布

阅读量592

点赞数

大家好，我是小 G。

会写爬虫，已成为广大开发者必备核心技能之一。不过，也有不少人因为不懂这块的法律法规，因技术使用不当吃了牢饭。

因此，在技术圈内，有这么一句话广为流传：

爬虫玩得好，牢饭吃到饱

当然了，玩笑归玩笑，此前有细心的开发者在 GitHub 整理过一份文档，里面汇总记录了国内各类爬虫违法违规的案例，想搞爬虫之前，建议大家先把这个项目看一看：

https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China

不过，上面这份文档，不是咱们今天的主题。

当你善于手写代码来实现业务需求的同时，也别忘了，一个趁手的工具，能极大减轻你的工作量，提高生产力。这一论点放到爬虫技术上面，也同样适用。

今天，我想跟大家分享一个集众多数据源于一身的爬虫百宝箱，里面收集了包括 GitHub、QQ 邮箱、网易邮箱、京东、淘宝、支付宝、移动联通电信、知乎、B 站、网易云音乐、QQ 群以及各大技术论坛与社区的爬虫工具。

其覆盖面之广，由下面这张工具箱截图便可见一斑：

除去上面提供的各类工具之外，该项目的代码也全部开源，并提供 GUI 图形界面，小白用户也能分分钟上手。

不过，爬虫只是一种手段，合法合规的拿到并用好数据才是关键。

因此，作者对项目结构进行了更为合理的设计，所有项目的数据源相互独立。这么做的好处是便于开发者后续维护和管理，也使得代码具有更高的可移植性。

在数据存储和展示方面，项目的友好度也颇佳，所有数据均使用 JSON 格式存储，并提供更为直观的数据可视化展示（仅部分工具支持）。

当然了，作者发布这款工具的本意，并不是让大家去爬取他人数据，而是通过合理手段，从各大平台拿回那些本属于自己的数据。

在聊到为什么要做这样一个项目时，作者说道：

个人数据蕴含巨大的价值，未来的世界核心就是数据，这是一个万亿级的市场。众多的公司利用用户数据获得巨额利益，如对用户的数据收集分析后进行定制的广告推送，收取高额广告费。但作为生产数据的最终用户，却没能分享属于自己的数据收益。
个人数据分散在各种各样的公司之间，经常形成数据孤岛，多维数据无法融合。很多优秀的创业公司，被极大限制。有算法、有创新，但缺乏合法且高效的途径访问数据。

所以，你知道管理好自己数据的重要性了吧。

关于这个工具箱的使用，作者写了一份很详细的文档，在此便不多做赘述了。

感兴趣的同学，可前往其项目页面查看详情：

GitHub 地址：

https://github.com/kangvcar/InfoSpider

InfoSpider 使用文档：

https://infospider.vercel.app/

--

这里再安利一波我们的公众号： GitCube，目前坚持每天一篇原创文章，主要分享比较实用或有趣的开发工具与开源项目，偶尔也会聊聊技术圈内最近发生的新鲜事，感兴趣的小伙伴可以关注一下哈。

weixin_39920338

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬虫学得好监狱进的早_这款神器，堪称爬虫界的百宝箱！

大家好，我是小 G。会写爬虫，已成为广大开发者必备核心技能之一。不过，也有不少人因为不懂这块的法律法规，因技术使用不当吃了牢饭。因此，在技术圈内，有这么一句话广为流传：爬虫玩得好，牢饭吃到饱当然了，玩笑归玩笑，此前有细心的开发者在 GitHub 整理过一份文档，里面汇总记录了国内各类爬虫违法违规的案例，想搞爬虫之前，建议大家先把这个项目看一看：https://github.com/HiddenSt...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。