Java爬虫
java 的爬虫的方面
坐在西半球上
努力努力。
展开
-
爬虫 爬取 zip链接 ,直接读取其中的图片
需要:为一个zip 的下载链接,下载为一个 byte[ ]。从这个 byte[]中直接获取想要的图片。 /** * 对 下载zip文件 的 byte[] 中提取 图片的 byte[] * @author xubenqing * @param zipByte zip文件 的 byte[] * @return 图片的 byte[] */ private byte[] ...原创 2020-03-24 15:56:35 · 603 阅读 · 0 评论 -
Java爬虫之学习篇 WebMagic学习
本篇主要 说明WebMagic的学习原创 2019-10-24 09:49:51 · 115 阅读 · 0 评论 -
Java爬虫之反爬篇 icomoon字体反爬(未解决)
页面的显示效果:F12查看:链接:https://www.china.cn/sujifuji/4132658569.html两张图片对比,可以看出: 数字在源码中,是一些特殊的字块。原创 2019-10-22 15:28:15 · 337 阅读 · 0 评论 -
Java爬虫之特殊案例 DWR格式的数据
案例链接:http://ggzy.ah.gov.cn/login.do;jsessionid=98f09afb1805eeeb792d6c613213?method=beginlogin如上图,可以看出该网站响应的数据 为DWR的数据。将爬取的步骤分成两步:第一步:获取响应的DWR数据第二步:将 得到的DWR数据经行转化。...原创 2019-10-15 17:05:15 · 858 阅读 · 2 评论 -
Java之反爬篇 滑块验证码的破解
本文只为学术研究,不做商业用途。图一如图一,类似这样的验证码,大家再访问网站的时候应该都接触过。本文主要内容是:怎么用程序破解滑块验证码。以极验的为例子,网址:https://www.geetest.com/demo/slide-bind.html...原创 2019-08-13 10:19:42 · 5475 阅读 · 0 评论 -
Java爬虫之反爬篇 58字体反爬
一些页面 会对关键字进行加密。爬取的时候,不能获取到正确的数据一、58 网站的字体加密页面的效果源码:可以看出 数字在源码中,未特殊的文字。二、icomoon对字体的加密未完待续...原创 2019-07-11 11:16:32 · 1361 阅读 · 0 评论 -
Java爬虫之特殊案例 Base64加密与AES加密
本文主要总结遇到的反爬虫的手段,加密。一、Base64的加密(已解决)二、MD5的加密(未解决)未完待续原创 2019-07-11 11:08:35 · 435 阅读 · 0 评论 -
Java爬虫之特殊案列 post请求的模拟分页
一些网页的分页规则,我碰到的大致分为两类:post有参(可以根据传入响应的页码进行爬取哪一页)post有参(不能根据传入响应的页码进行爬取哪一页,只能通过上一页才能到达下一页的位置)...原创 2019-07-08 14:57:49 · 682 阅读 · 1 评论 -
Java爬虫之学习篇 爬虫的踩坑日志
常见的jsoup的问题一、json数据的封装导致的问题错误的json数据:{“status”:1,“message”:“成功”,“data”:"[{“Id”:“b64378b5-5d96-4be5-aa25-de702b369095”,“Concern”:0}]",“recordCount”:2587,“pageSize”:10,“pageCount”:259}正确的json数据:{“sta...原创 2019-06-20 17:22:36 · 780 阅读 · 0 评论