爬虫
文章平均质量分 82
摸鱼Script
目前正在学习Web全栈开发,时不时会分享个人经验。
主页:https://passkou.com
GitHub:https://github.com/Passkou
展开
-
【过于硬核慎入】这是我遇到过的最强反爬虫(反反爬虫教程)
https://www.passkou.com/阅读本文前在阅读本文前,你需要具有以下所有知识,否则你无法读懂:HTML + JS 基础HTTP 基本知识简单的密码学知识(MD5、AES)浏览器调试工具使用高中英语以上水平强记忆力强逻辑思维能力你会学到什么在阅读本文后,你会学到一些常见的反爬虫方式,以及如何阅读被混淆后的 JS 代码。免责声明本文仅供学习研究使用,请勿将此技术用于违法用途。起因我从某个视频网站(会引起版权争议故不透露地址)上,想把他的视频下载下来,然后发现.原创 2021-06-13 12:10:43 · 2222 阅读 · 5 评论 -
【Python】b站弹幕系统改版后爬虫方法(bilibili_api)
前言以前b站弹幕接口是这个:https://api.bilibili.com/x/v1/dm/list.so返回的是 XML 格式的信息,非常容易解析。但是,不知道什么时候开始,b站弹幕接口进行了更新,这个接口现在也被废弃了,改成了下面这个:https://api.bilibili.com/x/v2/dm/web/seg.soF12调试一看,好家伙,返回的是二进制流,根本就看不懂。这意味着,现有的通过直接访问API弹幕爬虫方法全部失效。那么怎么爬虫呢?经过我的解析,得出了这个结论:https原创 2021-02-10 21:12:29 · 3825 阅读 · 7 评论 -
b站弹幕新版API数据格式规格研究
前言b站近期更新了弹幕接口返回的数据结构,我通过逆向JS代码进行研究,下面是研究成果。API调用GET https://api.bilibili.com/x/v2/dm/web/seg.so参数:键值oid分P编号,也称为cidtype1segment_index1返回请求正确:二进制数据流,需要解析后才能查看。请求错误:JSON格式,结构是b站标准API数据结构。并附有错误信息。返回数据流解析应进行逐个字节解析。数据包以单条弹幕为单位。以下原创 2021-01-31 21:53:52 · 2819 阅读 · 10 评论