老司机开车记

node.js+jsdom 小爬虫 并不是框架>.<

解决某些个人问题:

利用了dfs搜索


"use strict";
let https=require('https');
let fs=require('fs');
let path=require('path');
let jsdom=require('jsdom');
let visted=[];


function isDir(url){
  if(url.indexOf('.')!==-1){
    return false;
  }
  try{
    fs.mkdirSync(url);
    console.log('mkdir:'+url);
  }catch(e){
    console.log(`IOerror:${e}`)
  }
  return true;
}

function isUrlVisited(url){
  for(let i=0;i<visted.length;i++){
    if(visted[i]===url){
      return true;
    }
  }
  visted.push(url);
  return false;
}

function writeFile(url){
  if(isDir(url)&&isUrlVisited(url)){
    return;
  }
  let filePath=path.parse(url);
  try{
    urltoFile(url);
  }catch(error){
    console.log(error)
  }

}

function urltoFile(url){
  https.request(root+url,
  (res)=>{
    res.on('data',(data)=>{
      fs.appendFileSync(url,data);
    });
  }).on('error',(e)=>{
    console.log(e);
  }).end();
}


function dealUrl(url){
  isUrlVisited(url);
  isDir(url);
  writeFile(url);

}
let root='https://www.seryox.com';
function applyUrl(url){
  jsdom.env({
    url: url,
    scripts: ["http://code.jquery.com/jquery.js"],
    done: function (err, window) {
        let $=window.$;
        console.log('done');
        try{
        let arr=$('a');
        console.log(arr.length)
        for(let i=0;i<arr.length;i++){
          let href=$(arr[i]).attr('href');
            if(href.match(/^\/pic/)&&!isUrlVisited(href)){
              console.log(href);
              if(isDir(href)){
                console.log('dir:'+url+href);
                applyUrl(root+href);
              }else{
                console.log('file:'+url+href);
                writeFile(href);
              }
            }
        }
      }catch(e){
        console.log(e+'@'+url);
      }

    }
  });
}
applyUrl(root+'/');

生成的文件夹编码为UTF-8 URL编码

利用此文件可解决

"use strict";
let fs=require('fs');
let root='/pic';

function isDir(url){
  if(url.indexOf('.')!==-1){
    return false;
  }
  return true;
}

function rename(path,name){
  if(name.indexOf('%')!==-1)
  console.log(path+'/'+name+' to '+path+'/'+decodeURI(name))
    fs.renameSync(path+'/'+name,path+'/'+decodeURI(name));
}

function main(path){
  let fd=fs.readdirSync(path);
  for(let i=0;i<fd.length;i++){
    if(isDir(fd[i])){
      main(path+'/'+fd[i]);
    }
    rename(path,fd[i]);
  }
}
main(root);


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值