这是我今天写的第四篇文章,今天一天对未来隐隐的有些担忧,或许该是时候去找份工作了。
豆瓣登录的时候会有验证码,cneta评论的时候会有验证码,验证码一般需要ocr去采出来。但是,能不能绕过去呢?
这个方法我并没有成功,因为我最近在上算法课,大部分心思都在别处,今天写下来,也是为了以后做个备忘。
首先就是评论cneta,抓取内容,看看都需要发送什么
其实还是一样,content是内容,secode是验证码,yll_CSRE_TOKEN在cookies中可以找到,sid是文章的编码,文章的最后的目录。
只要get一下,然后从cookies中拿到token,发回去就可以。关键就是怎么破解验证码了。
上图就是验证码生成的过程产生的数据,把第一网址拷贝到浏览器上,就可以得到验证码图片,拿去ocr破解即可。
但是最后那串数字好熟悉,拿去测试了一下,果然是时间,也就是说,验证码的产生依赖于时间,我可以把最后的时间替换成现在的时间,就可以得到一个验证码。
我现在不太理解的是,验证码如何验证,因此只能打消,看样子最好自己做个网站试试看才知道。如果说验证码是跟时间绑定的,搞不好每个时间产生的验证码是固定的,我们就可以在cookies中欺骗服务器我们得到的是同一个验证码,这样我可以人工识别一个验证码,然后一次性评论多篇文章,毕竟cnbeta的评论地址都一样,只是靠sid去辨别评论的文章。同时开几个进程,每个进程弄个proxy,不就一切大吉了?
对我而言,最大的问题就是,谁要评论cnbeta呢?
<