node.js 抓取代理ip

node.js实现抓取代理ip 

主要文件:index.js

/*
*  支持:node.js v7.9.0
*/
const cheerio=require('cheerio');
const fetch =require('node-fetch');
const Promise=require('bluebird');
let  mongoose=require('mongoose');

Promise.promisifyAll(mongoose);
let Schema=mongoose.Schema;
mongoose.connect('mongodb://localhost:27017/ipproxypool');
let IPpool=new Schema({
    ip:{type:String,unique:true}
})
let Ipproxy=mongoose.model('IP',IPpool);

function fetchUrl(url){
    fetch(url,{
        method:'get',
        headers:{
        }
    })
    .then(res=>res.text())
    .then(body=>{
       let $=cheerio.load(body);
       let length=$('#list table tbody').find('tr').length;
       for (let i=0;i<length;i++){
       let ipaddress= $('#list table tbody').find('tr').eq(i).find('td').eq(0).text() ;
       let port = $('#list table tbody').find('tr').eq(i).find('td').eq(1).text();
       console.log(`IP:${ipaddress}:${port}`);
       let ip=`${ipaddress}:${port}`
       let ippool=new Ipproxy({
           ip:ip
       })
       ippool.save();
       }
    })
}

var sleep = function (time) {
    return new Promise(function (resolve, reject) {
        setTimeout(function () {
            resolve('ok');
        }, time);
    })
};
const pageNumber=10;
var start = async function(){
    for(let j=1;j<pageNumber;j++){
         console.log(`当前是第${j}次等待..`);
        fetchUrl(`http://www.kuaidaili.com/free/inha/${j}/`);
        await sleep(1500);
    }
}
start();

包支持 : package.json

{
  "name": "demo-4-ipproxypool",
  "version": "1.0.0",
  "description": "",
  "main": "index.js",
  "scripts": {
    "test": "echo \"Error: no test specified\" && exit 1"
  },
  "author": "false-l",
  "license": "",
  "devDependencies": {
    "babel-preset-es2015": "^6.24.1",
    "babel-preset-react": "^6.24.1",
    "babel-preset-stage-3": "^6.24.1"
  },
  "dependencies": {
    "babel-core": "^6.24.1",
    "bluebird": "^3.5.0",
    "cheerio": "^0.22.0",
    "koa": "^2.2.0",
    "koa-router": "^7.1.1",
    "mongoose": "^4.9.6",
    "node-fetch": "^1.6.3"
  }
}

本地需要安装mongodb数据库,用于存储抓取到的ip,目前还未实现ip验证。写这个主要是处于好奇。

上面的代码就可以实现抓取ip代理网站的ip并存到mongodb数据库中。

下面在放出一个基于koa2的api接口的简易服务器实现

server

const Promise=require('bluebird');
let  mongoose=require('mongoose');
const koa=require('koa');
const app=new koa();
var router = require('koa-router')();
Promise.promisifyAll(mongoose); let Schema=mongoose.Schema; mongoose.connect('mongodb://localhost:27017/ipproxypool'); let IPpool=new Schema({ ip:{type:String,unique:true} }) let Ipproxy=mongoose.model('IP',IPpool); app.use(async (ctx, next) => { await next(); var data=await Ipproxy.find({},function(err,ips){ var ipmap=[]; ips.forEach(function(ip){ ipmap[ip._id]=ip; //console.log(ip) }); }) var map=data.map(ip=>ip.ip); ctx.response.type = 'text/json'; ctx.response.body = map; }); app.listen(3000); console.log('server listen:3000')

至于为什么既有promise又有async,是因为对异步语法还不是很熟,怎么会怎么写了。

使用方式:

 根据package.json

npm install   // 安装支持

node index.js  //获取代理 ip 

node server.js  //运行简易ip接口

 

转载于:https://www.cnblogs.com/waterserver/p/6788734.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值