1.序言
因为工作内容原因需要对四库一平台全站数据进行抓取,这次爬取经历了两次方案进行抓取,现在一一记录下来。网站有多处反爬,今天在这里会对所有反爬与爬虫细节进行细化分析。
2.正文
首先打开网站
这里有个数据服务,点击进入就会有具体数据的列表页了。
今天只介绍企业数据如何进行抓取,因为其他的数据都是相同的手法,了解了一个其他的就知道了。我使用的是chrome浏览器,F12进行检查。
可以看见网站返回的内容都是进行加密的,这个时候我们就要进行查看其加密的方式是怎么样的了,这样才能进行解密。
如何查找的过程就不细说了,最终可以发现其是通过aes进行加密的,上面也给了key和vi两个参数,拿到这两个参数就可以进行解密,然后查看返回的具体内容了。
如果这个网站