这是我今天写的第四篇文章,今天一天对未来隐隐的有些担忧,或许该是时候去找份工作了。
豆瓣登录的时候会有验证码,cneta评论的时候会有验证码,验证码一般需要ocr去采出来。但是,能不能绕过去呢?
这个方法我并没有成功,因为我最近在上算法课,大部分心思都在别处,今天写下来,也是为了以后做个备忘。
首先就是评论cneta,抓取内容,看看都需要发送什么
其实还是一样,content是内容,secode是验证码,yll_CSRE_TOKEN在cookies中可以找到,sid是文章的编码,文章的最后的目录。
只要get一下,然后从cookies中拿到token,发回去就可以。关键就是怎么破解验证码了。
上图就是验证码生成的过程产生的数据,把第一网址拷贝到浏览器上,就可以得到验证码图片,拿去ocr破解即可。
但是最后那串数字好熟悉,拿去测试了一下,果然是时间,也就是说,验证码的产生依赖于时间,我可以把最后的时间替换成现在的时间,就可以得到一个验证码。
我现在不太理解的是&#