网易云网页搜索结果的爬取 因为接口被加密过,不想费时间破解加密的参数 所以使用selenum,速度上还算不错,最后可以爬到MP3的地址,和歌曲详细信息。
selenum使用时需要注意,网易云的音乐信息与翻页信息放在了frame中,所以要跳转到frame中爬取。 在寻找下一页的标签时,要使用selenum向下滑动到底,才能抓到。并且每次翻页后需要重新请求一遍页面,刷新拿到的html。
使用时,根据自己的网速调节selenum的time.sleep等待时间。 最终生成的mp3(由songid和资源地址拼接而成)地址是国内主机访问才可以,国外主机有可能出现404。 爬取结果是wangyiyun.json。