平心而论,这是记录这段时间的辛苦成果,一群人破解啦很久没破解出来,最后破解出来,还是很有成就感的 。
为什么说这个网站超难破解,让我一一道来
1.对python语言去采集不太好,python尝试啦几次都不行,人家系统能识别出来,其他java,js,rust,go,php,shell等其他语言都是支持的,python去写,反而麻烦啦,python在这次破解采集数据中扮演者就处理数据的角色,再次强调,python只能作为工程师技能,别被某音,培训班骗啦,不要把它当职业语言。
2.网站封号,封ip很严重,即使你是一个正常用户操作点击,只要频率稍微点击过快,也会给你封一天,或者n天。ip这个很坑,市面上虽然代理挺多,但是网速能跟得上的不多,除非你开代理跑数据,其他浏览网站在其他设备上,当我没说
3.请求数据这个多坑呢,n个加密参数,webpack打包,你需要扣函数,扣到你吐血,最主要几个加密参数都带时间戳的加密,时间戳处理形式还不一样也就是说参数顺序你不能乱,按时间间隔都要计算好
4.cookie的坑,request.cookie和response.cookie坑,自定义生成规则,不做赘述
5.网站识别用户身份是加密字段,和当前用户ip绑定到一起,又是一坑
6.相应内容是一堆你看不懂的几百个阿拉伯数字
7.字体是自定义字体,没错,需要用到knn识别技术,机器算法走起啦
其他坑不做叙述,呵呵。