我需要抓取的网站是国家企业信用信息公示系统,但是该网站有反爬虫,一般的url下载方法并不适用,下面是我通过查资料后总结的一个可行的方法。
首先,要通过url和Cookie还有User-Agent去请求一次目标网址,第一次的cookie可以通过浏览器来获取,cookie主要是需要__jsluid和__jsl_clearance。
请求后返回状态为521,返回内容是一串加密后的javascript,解密后可以得到一串正常的js代码,运行js代码就可以得到一个cookie就是__jsl_clearance的。因为我是用的java,所以我是用的java自带的脚本引擎类ScriptEngineManager去解析的。javascript解析看代码:
ScriptEngineManager manager = new ScriptEngineManager();
//得到脚本引擎
ScriptEngine engine = man