知乎爬虫之2:爬虫流程设计

最新推荐文章于 2024-07-03 09:51:18 发布

Seven_73

最新推荐文章于 2024-07-03 09:51:18 发布

阅读量1.6k

点赞数

分类专栏： Java 爬虫文章标签：知乎爬虫数据可视化 java 设计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Seven_73/article/details/53409057

版权

本文由博主原创,转载请注明出处
说到爬虫，其实写起来很简单，爬虫无非就是将自己想要的内容在页面上抽离出来，并且存储。这个过程在今天已经变得非常轻松，在Java下有Jsoup，Python下有BS4，还有通吃的正则等等，然而真正难的却是在于伪造请求，截获分析请求参数，获取正确的页面.
首先来说，一个能混得过去的爬虫，应该有一个优秀的流程，在明确自己的目标后，应该立马去设计爬虫工作流程，而不是去无脑的Coding。
那么今天咱们就先研究下咱们这个爬虫的目标和流程。
首先咱们是要获取知乎页面上的个人信息，关注和被关注信息，首先咱们会遇到第一个问题就是登陆，咱们这里暂且不讲，
其次咱们就是要给定一个初始化url，然后进行followers的和followees的获取，然后循环爬起来，那么其中一定会遇到数据重复和人物关系建立的问题。

1.过滤重复数据

这个相对而言比较简单，有几种常规方法：
1. 数据库设置主键，锁定人物ID
2. 存入数据时查询数据库数据
3. 使用缓存队列，在缓存中查找数据判断
首先来说第一种，数据库设置主键，锁定人物ID，这个方法可以使数据永远不重复，但是也会造成批量插入的时候造成出错
第二种方法，存入数据时查询数据库数据，可行，但是多次访问数据库，造成效率低下
第三种方法，使用缓存队列，在缓存中查找数据判断，这种方法很好，而且速度相对较快，但是缓存太多容易出现OOM问题

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
知乎爬虫之2:爬虫流程设计

本文由博主原创,转载请注明出处说到爬虫，其实写起来很简单，爬虫无非就是将自己想要的内容在页面上抽离出来，并且存储。这个过程在今天已经变得非常轻松，在Java下有Jsoup，Python下有BS4，还有通吃的正则等等，然而真正难的却是在于伪造请求，截获分析请求参数，获取正确的页面. 首先来说，一个能混得过去的爬虫，应该有一个优秀的流程，在明确自己的目标后，应该立马去设计爬虫工作流程，而不是去无脑
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。