//导入依赖包
const http = require("http");
const path = require("path");
const url = require("url");
const fs = require("fs");
const superagent = require("superagent");
const cheerio = require("cheerio");
var num=34688091
var requesturl="*******"
var requesturl1="*******"
//定义一个空数组,用来接收数据
var result='';
var isNext=false
var timeDowm=null
function GetData(num,type){
let url="********"+num+".html"
// if(type){
// url='*******'+num+'_2.html'
// }else{
// url='*******'+num+'.html'
// }
isNext=false
console.log(url)
if(timeDowm){
clearTimeout(timeDowm)
}
superagent.get(url)
.end((error,response)=>{
isNext=true
timeDowm=setTimeout(() => {
if(isNext){
console.log("长时间不执行 进行下一次")
num++
GetData(num)
}
}, 3000);
if(error){
console.log("下一章")
}else{
//获取页面文档数据
var content = response.text;
//cheerio也就是nodejs下的jQuery 将整个文档包装成一个集合,定义一个变量$接收
var $ = cheerio.load(content);
result+=$("#content").text()
// console.log($("#content").text())
fs.writeFile("boss4.json",result,"utf-8",(error)=>{
//监听错误,如正常输出,则打印null
if(error==null){
// console.log("恭喜您,数据爬取成功!");
if(type){
// console.log(type)
num++
GetData(num)
}else{
num++
GetData(num)
}
}else{
if(type){
num++
GetData(num)
}else{
num++
GetData(num,)
}
}
});
}
})
}
GetData(num)