今天讲讲用爬虫下载万方数据库文献。
右键那个下载按钮 -> 检查,我们可以看见,按钮的点击事件是一个 js 函数 upload()。
在网页源代码中,寻找这个 upload() 函数,发现它只在按钮处出现了一次。所以,这个函数应该是由 js 文件加载的。
在网页源代码中,寻找 .js(搜索 js 文件),点击每一个 js 文件的链接,看看里面有没有 upload() 函数(这个方法貌似有点蠢,不知有没有更高效的方法)。最后在下图这个文件找到了:
upload() 函数代码如下:
function onlineReading(page_cnt,id,language,source_db,title,isoa,type,resourceType){
title=window.encodeURI(window.encodeURI(title));
var type = $("#document_type").val();
if(type == "standards"){
type="standard";<