![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Webmagic
Lock_Jun
这个作者很懒,什么都没留下…
展开
-
httpclient 获取重定向的网址 重定向的location
这个就不废话了直接上代码: HttpClientBuilder httpClientBuilder = HttpClientBuilder.create().setDefaultCookieStore(httpCookieStore);//httpCookieStore 存放cookie的CookieStore对象 httpClientBuilder.setRedirectStr...原创 2019-11-08 16:35:35 · 1817 阅读 · 0 评论 -
初识webmagic之爬取CSDN博客
WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。在这四个组件中我们需要做的就是在PageProcessor中写自己的业务逻辑,比如如何解析当前页面,抽取有用信息,以及发现新的链接。下面是官方给出的架构图WebMagic的四...原创 2019-08-09 16:38:27 · 244 阅读 · 0 评论 -
boss直聘的爬取之js解密cookie的”__zp_stoken__”字段
这篇主要说boss直聘遇到的解密过程,但是也不能细讲,大概思路给大家说下。能来看这篇文章的人大概也是最近发现了boss直聘经过改版后,访问页面必须携带”zp_stoken”字段了,我们直接进入正题。首先我们随意访问一个页面,好比https://www.zhipin.com/c101040100-p100901/,我们发现记得选中1号位置,不然谷歌看不到重定向的请求;我们访问的是2号链接,由...原创 2019-09-30 14:10:27 · 7781 阅读 · 9 评论