公司抓取音频数据,但是多数都是英文的,中文的数据太少,所以想研究下国内的音频网站好弄不。
网址一点开,发现不对,找不查找不到下载连接。
点击播放后能看到请求,上面的加载有url和视频相关的字段,但是就是找不到下面个m4a,的视频下载地址。怀疑url字段加密了。
看到url的链接了,但是不确定加密方式,怀疑是base64,用base64 可以还原,但是是乱码,看不懂。只能断电去找了。最初的断电跟了三四个小时,没找到,第二天一看直接就找到,估计不在状态。根据关键词playUrlList 可以快速定位到断点的位置。
打好断点可以调试
可以看到数据和最初网页加载的json一直。往后调试
英文的意思就是获取音频 地址。继续跟踪
这就是最终的位置了。
看到的内容有乱码,由替换字符,有base64,最终获取到下载连接,我还是被自己坑了一天,用数据不对,一直执行不对。
上面就是js部分,return 部分是一个字节数组,可以直接用 node默认的方法执行了。
有相关技术技术探讨的的朋友可以联系我
微信号:liu_yue_yang