爬虫
文章平均质量分 69
Seven_73
这个作者很懒,什么都没留下…
展开
-
知乎爬虫之3:请求分析
本文由博主原创,转载请注明出处git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider咱们上一篇所长说了爬虫的爬取大概思路,这一篇幅就来研究分析下模拟登陆知乎.首先来说,网上模拟登陆知乎的文章已经是多不胜数,而且模拟登陆知乎也比模拟登陆微博百度简单很多,但是本着善始善终的原则,咱们还是重头到尾的过上一遍.1.工具恩,工具呢,原创 2016-11-30 16:19:27 · 465 阅读 · 0 评论 -
知乎爬虫之2:爬虫流程设计
本文由博主原创,转载请注明出处 说到爬虫,其实写起来很简单,爬虫无非就是将自己想要的内容在页面上抽离出来,并且存储。这个过程在今天已经变得非常轻松,在Java下有Jsoup,Python下有BS4,还有通吃的正则等等,然而真正难的却是在于伪造请求,截获分析请求参数,获取正确的页面. 首先来说,一个能混得过去的爬虫,应该有一个优秀的流程,在明确自己的目标后,应该立马去设计爬虫工作流程,而不是去无脑原创 2016-11-30 15:43:22 · 1735 阅读 · 0 评论 -
知乎爬虫之4:抓取页面数据
本文由博主原创,转载请注明出处git爬虫项目地址(关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider咱们上一篇分析了知乎的登陆请求和如何拿到粉丝/关注的请求,那么咱们这篇就来研究下如何拿利用Jsoup到咱们想要的数据。 那么咱们说下,首先请求关注者和粉丝者是pcweb版本的,但是获取页面的是手机页面的。 好,正题: 1.什么是Jso原创 2016-12-11 20:56:01 · 749 阅读 · 0 评论 -
知乎爬虫之5:爬虫优化
本文由博主原创,转载请注明出处 github爬虫项目地址(已完成,关注和star在哪里~~):https://github.com/MatrixSeven/ZhihuSpider 附赠一份之前爬取的数据一份(mysql):链接:http://pan.baidu.com/s/1o833CUI 密码:vmck1. 使用多线程加速什么,爬虫爬起来数据太慢了,怎么办?你那当然是开启多线程了。那么多线程是原创 2016-12-31 12:51:17 · 1089 阅读 · 0 评论 -
知乎爬虫之1:开篇序言
在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。 那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。本文由博主原创,转载请注明出处,原文链接:sweets.cf gi原创 2016-11-28 09:29:51 · 539 阅读 · 0 评论