知乎爬虫之5:爬虫优化

最新推荐文章于 2024-02-04 23:19:11 发布

Seven_73

最新推荐文章于 2024-02-04 23:19:11 发布

阅读量1k

点赞数 1

分类专栏：爬虫 Java 程序设计文章标签：爬虫 mysql 多线程优化知乎爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Seven_73/article/details/53954941

版权

本文由博主原创,转载请注明出处
github爬虫项目地址(已完成，关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider
附赠一份之前爬取的数据一份(mysql):链接：http://pan.baidu.com/s/1o833CUI 密码：vmck

1. 使用多线程加速

什么，爬虫爬起来数据太慢了，怎么办？你那当然是开启多线程了。那么多线程是什么我就不介绍了。如果还不知道的，请左移多线程百度百科。

恩，知道了多线程，但是多线程如果自己控制的话，会很不好控制，所以咱们还需要两个线程池，一个负责拿到个人信息，一个负责获取用户的token。接下来让咱们之前写的ParserBase类实现Runnable，然后在ParserFollower里和ParserUserInfo里分别实现run方法，其实也很简单了，就是把之前的爬去逻辑，丢到run方法里。然后咱们就开启了多线程之旅。
但是在

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
知乎爬虫之5:爬虫优化

本文由博主原创,转载请注明出处 github爬虫项目地址(已完成，关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider 附赠一份之前爬取的数据一份(mysql):链接：http://pan.baidu.com/s/1o833CUI 密码：vmck1. 使用多线程加速什么，爬虫爬起来数据太慢了，怎么办？你那当然是开启多线程了。那么多线程是
复制链接

扫一扫

专栏目录

Seven_73 CSDN认证博客专家 CSDN认证企业博客

码龄10年

13: 原创

46万+: 周排名

112万+: 总排名

1万+: 访问

: 等级

305: 积分

2: 粉丝

7: 获赞

7: 评论

11: 收藏

私信

关注

热门文章

分类专栏

Java 11篇
程序设计 5篇
感想
爬虫 5篇
java源码分析 1篇
python 1篇
scala
造轮子 3篇
JavaScript 1篇

最新评论

MacacaUIFinder元素查找器
Seven_73 回复 u014804392: 第一次使用请录入配置信息，或者启动后会自动加载配置信息，然后你需要切换一次设备，选择你要连接的机器，这样会初始化macacaclient。然后才能继续进行后续操作。如果有问题请在github上提出相关issue、、、多谢。
MacacaUIFinder元素查找器
u014804392: 老提示这个是啥意思啊{"返回结果":"寻找元素失败,请初始化Macaca-client"} 按照你的步骤做的
【造轮子/更新】打造一个简单的万能Excel读写工具
Seven_73 回复环游记: 已经写clojure了嘿嘿
JDK动态代理的invoke方法的第一个参数是什么
Seven_73 回复稚子无忧: 收到了回复的邮件,已经很长时间不刷知乎和写博客了.嘿嘿
JDK动态代理的invoke方法的第一个参数是什么
稚子无忧: 知乎上看到，在这里又看到了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。