前段时间一直看动漫《鸭子的天空》别名篮球少年王,视频更新得比较慢,而且还要vip才能看~
于是看看有没有漫画可以看,B站漫画上倒是有,要158元(真富贵)解锁才能看,我支持正版,但我喜欢免费的资源,搜了一圈找到了一个可以用的站点(http://www.guoman8.cc/)。一页一页看太费劲了,而且网站响应也不太好,万一哪天再下线了呢!
我决定本地收藏他,螃蟹下这个资源试试。身为一个有理想的产品经理,这应该是必备的打野技能。
经过分析发现,网页中的URL地址不是真实的资源地址,使用python bs4直接解析的话发现是空的,真实的资源地址需要另行获取,而且这个漫画图片的请求地址都是通过JS动态加载的,不加载浏览器页面的话python没法获取真实的网页源码。
所以主要的难点如何通过构建请求URL地址,获取漫画资源的真实地址,然后获取每个分页的资源。这个思路很重要!
查资料发现,其他的方法不太可行,只有一种是可以的,就是使用Selenium,这是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。看看是不是很神奇,感觉像上帝一样,看书也有人翻页~知乎视频www.zhihu.com
漫画《篮球少年王》共获取567话,7510P,1.5G大小,螃蟹了6个多小时,这种方法就是速度太慢。应该没有人找我麻烦吧,这只是个人爱好,仅用于交流学习。作为一个产品经理,我也是超纲了吧~
看实际代码吧ÿ