网络爬虫
文章平均质量分 54
网络爬虫专栏
诗水人间
要想走的更远,就需要思考更深层次的问题。冷静、智慧、深沉是我所向往的
展开
-
解决Fiddler Everywhere无法捕捉浏览器的请求问题,以及意外退出Fiddler Everywhere导致谷歌浏览器访问不了网站
今天又用到了Fiddler Everywhere又遇到了上次同样的问题,Fiddler Everywhere捕捉不到请求。细想一下Fiddler Everywhere的作用,当我们打开它的时候本质上就是启动了一个代理服务器,也就是系统的所有http请求都经过Fiddler后台的服务器进行转发。而Fiddler Everywhere则是一个客户端,它可以连接到这个请求来管理代理服务器。我的推断是,在Fiddler Everywhere的设置中有一个选项是关于远程连接的选项,如下一般情况下无法捕捉到浏览原创 2021-01-26 19:31:57 · 2790 阅读 · 1 评论 -
java爬虫,爬取js渲染完成后的网页
在爬取bilibili的时候发现通过一般的客户端获取网页内容,会发现网页全是乱码,爬取百度等网页不会出现乱码,在我排除编码问题后,推测bilibili的网页采用js加密了网页。使用第一步加入maven依赖一个是必要的htmlunit框架用来获取渲染完成后的网页另一个是jsoup爬虫框架,用来获取网页中想要获取的内容 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> &原创 2020-08-13 05:16:44 · 127783 阅读 · 3 评论 -
bilibili-download 哔哩哔哩视频下载器(批量下载专栏视频)
环境jdk14maven构建接口文档地址:https://github.com/1015770492/bilibili-download/blob/master/doc/bilibili-Api文档.md原理是下载视频文件(不带声音)和音频文件,然后通过第三方工具ffmpeg合并视频文件和音频文件为一个文件ffmpeg官网地址自定义的http请求工具类部分代码展示;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson原创 2020-08-10 22:39:25 · 135606 阅读 · 0 评论