nodejs 写爬虫

最新推荐文章于 2024-07-22 10:16:01 发布

fire-fire-fox

最新推荐文章于 2024-07-22 10:16:01 发布

阅读量834

点赞数 1

本文链接：https://blog.csdn.net/wangrong111222/article/details/81806144

版权

爬虫：按照一定规则自动抓取网络信息的程序，搜索引擎就是一个超级大的爬虫；

反爬虫：

user-agent: 如果user-agent是爬虫的话就拒绝；

验证码

单位时间访问量的限制

关键信息图片混淆

异步加载返回空的 html，使用利用js 异步来加载页面；

写爬虫一般都是通过两个工具来实现的；

superagent 帮助我们发送请求得到html；

cheerio 把 html内容转换成一个 jq 对象，就可以使用jq 去操作html的内容了；但是他饶不过反爬虫规则；

# 这里使用puppeteer来实现；

google chrome 的 headless/puppeteer 可以使用谷歌浏览器来操作；所有的操作都是异步的，可以饶过反爬虫规则；

安装 headless/puppeteer cnpm i -S puppeteer

新建文件 screenshot.js


// 引入 puppeteer
const puppeteer = require("puppeteer");
const path = require("./config/default");

//写一个立即执行函数或者写一个函数下面调用；  反正都是异步函数；  所有的操作都是异步的；
(async () => {
       // 实例化一个浏览器对象
        const browser = await puppeteer.launch()

         // 实例化一个浏览器对象的页面对象；
        const page = await browser.newPage()

        // goto baidu.com
       await page.goto("https://baidu.com")

       // 截屏  保存地址为 根目录 下的screenshot 文件夹
       await  page.screenshot({

         path:`${path.screenshot}/${new Date()}.png`
            })

       // 关闭浏览器

       await   browser.close();
})();

新建文件夹 config 其内新建文件 default.js

const path = require("path");

module.exports={
    // 路径为根目录 下的screenshot 文件夹 // 需要预设文件夹否则报错；
    screenshot:path.resolve(__dirname,"../screenshot")
};

预设储存截屏图片的文件夹 screenshot ，否则允许报错；

开始操作

主代码；


// 引入 puppeteer
const puppeteer = require("puppeteer");
const path = require("./config/default");
 const srcToimg=require("./helper/srcToimg");

//写一个立即执行函数或者写一个函数下面调用；  反正都是异步函数；  所有的操作都是异步的；
(async () => {
       // 实例化一个浏览器对象
        const browser = await puppeteer.launch({headless: false})

         // 实例化一个浏览器对象的页面对象；
        const page = await browser.newPage()

        // goto image.baidu.com
       await page.goto("https://image.baidu.com/")
       console.log( "image.baidu.com");

      //设置 窗口的大小变得很大 以获取更多的图片 方便抓取；
       await page.setViewport({
           width:1920,
           height:1080
       })

      console.log("reset viewport")

     // 使得搜索框聚焦 模拟键入 "狗" 模拟点击搜索；
       await page.focus("#kw");

       await page.keyboard.sendCharacter("狗");
     console.log(22);
       await page.click('.s_search');


       console.log("go to search list");

       // 异步加载完成以后； 由于回调函数要异步 所以 要用到 async
    await  page.on('load', async ()=>{
           console.log("page loading done , start fetch");

      //  使用page.evaluate 来拿到dom
           const srcs = await page.evaluate(()=>{
               //。拿到所有的图片集合 ，但是集合不是数组 ，所以不能调用map方法
               const imgs = document.querySelectorAll('.main_img');
               //使用数组的map方法绑定 ，并且处理 拿到 原来item的src，变成一个所有图片src的集合
              return Array.prototype.map.call(imgs,(img)=>{return img.src});

           });


           //循环 处理这个页面图片src的数据；
           srcs.forEach(async (src)=>{

               //sleep 休息200毫秒再去调用 这样做是为了反爬虫；
               await page.waitFor(200);
               await  srcToimg(src,path.mn);
           })

       })


       // 关闭浏览器

      // await   browser.close();
})();

工具函数

//引入http和https模块；
const http = require("http");
const https = require("https");
// 引入fs
const fs = require("fs");
//引入path
const path = require("path");

//引入 异步模块
const {promisify} = require("util");

//使用异步模块处理fs。WriteFile；
const writeFile=promisify(fs.writeFile)

//处理src 储存的 函数；
module.exports = async  (url, dir) => {
    var reg = /^\s*data:([a-z]+\/[a-z0-9-+.]+(;[a-z-]+=[a-z0-9-]+)?)?(;base64)?,([a-z0-9!$&',()*+;=\-._~:@\/?%\s]*?)\s*$/i;

    //判断 是否是base的；来匹配方法
   if(!reg.test(url)){
    await urlToimg(url, dir)
   }else {
   await  base64Toimg(url, dir)
   }
};
// url to  img// 由于之后要使用到异步函数； 所以这个函数要promisify 一下 方便使用 之后使用await
const urlToimg =promisify ( (url,dir,callback) => {

    //拿到url的后缀名 （带.点的）；
    const ext = path.extname(url);
   //文件的存储路径  使用传入的路径 + 后缀名  拼接成的；
    const filePath = path.join(dir,`${Date.now()}${ext}`)


     // 分清楚url是http还是https； 分别使用不同的模块去处理地址；
    //如果是https开头的那么 就使用https模块否则使用http模块；
     const mod = /^https:/.test(url)?https:http;

     // 使用对应的模块使用   get方法 拿到对应的处理 结果 ；是一个流文件；
     mod.get(url,(res)=>{
         // 把流 pipe到磁盘上； 使用 fs的书写方法 书写到文件路径上去；
       res.pipe(fs.createWriteStream(filePath)).on("finish",()=>{
           callback();
           console.log(filePath)
       })
     })


})

//base64 to img
const base64Toimg =async (base64,dir) => {



    try{
        //data:image/jpeg;base64,/qwqwdq    base64格式；

        //使用match 匹配 base64的字符串；规则
        // 意思是 以 data: 开头的， +？（关闭贪婪模式）遇到 ；base64, 停止
        // 这样就有2个 .+ 的两段内容； 被放置到 match的数组里了；

        const matches = base64.match(/^data:(.+?);base64,(.+)$/)

        const ext =matches[1].split("/")[1].replace("jpeg","jpg");  //取到jpeg,如果遇到jpeg 那么就换成jpg；

        //文件的存储路径  使用传入的路径 + 后缀名  拼接成的；
        const fileName = path.join(dir,`${Date.now()}.${ext}`)


        //三个参数，文件名，内容，编码格式（默认buffer）；
        await writeFile(fileName,matches[2],"base64");
        console.log(fileName);

        }catch (e) {


       console.log("base64is not")

        }

};

路径类

const path = require("path");

module.exports={
    // 路径为根目录 下的screenshot 文件夹 // 需要预设文件夹否则报错；
    screenshot:path.resolve(__dirname,"../screenshot"),
    mn:path.resolve(__dirname,"../mn")
};