对于一个小公司的程序员或者学生党,没有太多资金的支持,所以我们一般会寻找一些免费的渠道来满足自己需求,例如我现在做爬虫需要翻译大量excel文档,谷歌翻译有google_trans_new这个包,但是翻译效果不一定好,所以还要用百度翻译来配合一下,满心欢(劳)喜(累)的逆向百度翻译的js代码,找到了生成sign的js函数(其实百度就有生成sign的js函数,但是自己找一遍还是能学到点东西),接下来开始进行翻译,一开始翻译不长的句子效果很好(建议翻译速度不要低于0.2s,太快会有的翻译不了)
import random
import time
sleep_time = random.random()-0.2
if sleep_time < 0.2:
sleep_time = 0.8
time.sleep(sleep_time)
但是当句子的长度大于30的时候,所有翻译的句子返回的都是error消息,翻译失败,于是开始了苦逼的找原因之旅,因为翻译的时候习惯打印sign的值,而且发生改变的参数也只有sign,所以尝试了一下发现是sign生成值不正确
难道是长句子有其他的生成函数,于是又跑去逆向js(吐血)。发现句子长度大于30会截取句子的一部分来生成sign
然后尝试修改js代码打印截取的句子和网页的js截取的句子有什么不一样。
发现python调用js代码的substr函数似乎没生效,可能是js环境的原因,既然找到了原因,那么只要稍微修改一下js的截取区间就好了