一、爬虫 - 新浪爱问共享资源全下载之解决方案

第一次写这玩意,写的不好看到的莫喷,写这篇文章之前也纠结了几百年,买了个表的,都说网游穷3代,dota毁一生,最近没日没夜的dota,累呀,今天有点时间休息下,顺便写点东西,fuck ........ 真心戒不掉呀,囧么办,好啦,废话不多说了,先发个这个软件的截图(至于这个这个界面的一些功能以后慢慢说)


看看吧,以后会慢慢copy他的代码出来,出来混这么2年就jb自己整出个这个软件框架,虽然不是什么牛逼的框架,但自己还是认为自己挺牛逼的,

下载爱问免积分资源的方案并不是什么牛逼的方案,就像第一个吃螃蟹的人也不是什么牛逼的人(*^__^*) 嘻嘻……还是牛逼了下自己

关于爬虫的一些概念,功能我就不多说了,网上一搜一大堆;

爬虫一般:

第一步:取链接,下载网页

第二步:解析网页,记录解析出来的链接(分类,去重,去有效链接等等)

第三步:回到第一步

但是对于爱问分析其资源的网页特性,你会发现资源是有序的!(关于这个发现我还要发下牢骚,我去年买了个表的,写这个软件也是因为网上遇到一个人,有这方面的需求,然后,也是我刀的累了,就寻思鼓捣下吧,然后就弄出了这玩意,给他用,后来nab竟然跟我了解我爬取的思路后,自己又做了一个,然后在群里大肆渲染,一个字都没提到我,fuck 呀,至少给借点光吧,让俺也牛逼下吧,让俺也显摆下吧。以上纯属个人牢骚,看到了莫怪,年轻人有点牢骚正常)这就免去了爬虫最让人头疼的一个模块-去重,

看看爱问资源链接特性吧

然后在里面随便打开一个资源例如:

你会看到链接的末尾 是个数字38057316,顺手就 随便更改末尾数字,竟然链接到其他的资源,我勒个去了,发现这个我那个兴奋呀,因为代码一下子少了很多,当然我的头发也少了掉了很多
(细心的童鞋会发现很多资源类的网站都是这个jb样全是有序的,拿给我们这些有手好闲的混混,一个闲的蛋疼也要把它爬下来的理由,自己想去吧)

再看看资源的下载时显示出来的特性

还是用刚才的那个资源对应的网页看看

打开网页源代码,找到对应的链接地址,

你会惊奇的发现这个链接地址也是有序的,fuck 呀,什么什么,什么得来全部会功夫,如果这个也能像之前的那个链接能直接请求成功的话,那就直接用这个,更是省了额的 一大批下载网页的时间,尝试了下,竟然非常给力的可以,那就莫怪我啦,哈哈;
然后我们看看请求这个链接时,浏览器爱问会做什么小动作,打开一个牛逼的软件(http监控的软件,好多随便下一种,自己琢磨琢磨就会用了),
我用的是
 
这个玩意,不会读,凑合挺好用的,
监控的时候你会发现有好多的302,草草,来回这么多响应,才得到想要的,纠结呀,


艹多亏软件就会无脑的做重复的动作,但我还是感觉不爽(跳转这么多次,有可能跟减轻服务器压力,数据安全有关,干我鸟事,我要的是资源文件啊啊啊)
以上分析了这么多东西,其实就是为了得到爬虫所需的下载链接,总结下来,爱问资源就是一个数字,从0~38******(3百多万)个资源(到写软件时就这么多了,以后可能哪个闲的蛋疼的人上传,还会更多,先不管了,就这么多了), 相信很多人看到这就已经那个什么欲动了
好啦今天就讲到这了,我也不是牛逼的人,不要喷,本人素子不是很高,家里蹲大学毕业的,由于长时间的dota,口出脏话在所难免,明白人懂得,再说第一次写这破东西,也不知道怎么个写法,再次强调莫喷呀,回去吃饭啦,下一次把内部实现代码讲讲吧,


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值