js - 爬虫的实现

爬虫的原理

爬虫,就是一个自动爬取网页上展示的信息的工具。我们要写一款爬虫,就要满足下面的条件:

  1. 网络的请求。首先我们要进行网络请求,让目标给我们返回信息(常用的模块有http、http2、https、request、axios、puppeteer
  2. 对返回来的数据的处理。(这部分可以随意发挥、正则等技术,而对于html文件的话,有 cheerio 模块(客户端的jQuery)、而返回来的数据可能有编码问题,iconv-lite 模块可以用于编码的转换,当然,请求时也可以直接设置response的编码
  3. 数据的储存。(这部分涉及到文件处理和数据库,会在另外的文章叙述)

爬虫的实现

    talk is cheap,show me the code

    让我们开始写代码吧

const cheerio = require('cheerio');
const fs = require('fs');
const request = require('request');

// http://www.feizdy.com 是一个电影网站
// 尝试的时候建议选用http的网站,初学者比较好爬
// 我们的目的是爬取电影的名称和图片信息,并把图片下载保存起来

// target
let url = 'http://www.feizdy.com';
// savePath
let photoSavePath = './img';

run(url, photoSavePath)
    .catch(err => {
    console.log('运行错误 => ' + err);
});

async function run(url, photoSavePath) {
    //  获得首页
    const html = await getHTML(url);

    // 可以直接用正则进行内容匹配
    // 把首页 用cheerio模块转换成Dom操作 (注意:load转换时可能会乱码,所以要设置{decodeEntities: false})
    const $ = cheerio.load(html, {decodeEntities: false});
    // 2.对返回来的数据进行处理

    // 用元素审查分析html文件结构(见图 1)
    // 元素选择器获得所需要的结构的集合

    // 这里是获得电影详情页的链接
    $('.container .row .col-sm-6 .movie-item a').each((i, item) => {
        // 这里的item要转换一下,用$(item)变成dom节点
        // 由图可以看出链接是片段的,要拼接成完整的url
        let detailUrl = url + $(item).attr('href');

        // 利用详情链接获取电影详细信息
        getDetailMessage(detailUrl)
            .then(movie => {
                return addToFile(movie);
            })
            .then(imgSrc => {
                downloadPhoto(imgSrc, photoSavePath, i);
            })
            .catch(err => {
                console.log(err);
            });
    });
}

// 请求资源
function getHTML(url, timeout = 20000) {
    return new Promise((resolve, reject) => {
        // 1.发送请求,等待网站回应
        request.get(url, {timeout: timeout}, function (error, response, body) {
            error ? reject('Timeout.\n' ) : resolve(body);
        })
    })
}

// 获得电影相关的信息
async function getDetailMessage(url) {
    try {
        let detailHTML = await getHTML(url);
        // 结构分析在图 2
        const $ = cheerio.load(detailHTML, {decodeEntities: false});
        let movie =  {
                name: await $('.container .container-fluid .row .col-md-12 .movie-title').text(),
                img:  await $('.container .container-fluid .row .col-md-9 .row .col-md-4 a img').attr('src')
            };
        // 去除空电影
        return movie.name && movie.img ? movie : undefined;
    } catch (e) {
        console.log('Method: getDetailMessage =>' + e);
    }
}

// 添加到文件
function addToFile(item) {
    if (item) {
        let imgSrc = item.img;
        item = JSON.stringify(item) + '\n';
        // 把movie 写入文件
        fs.appendFile('./data/data.txt', item, {encoding: 'utf-8', flag: 'a'}, error => {
            error ? console.log('Method: addToFile => data write error.\n' + error) : null;
        })
        return imgSrc;
    }
}


// 下载图片
function downloadPhoto(src, photoSavePath, filename, timeout = 20000) {
    if (src) {
        // 提取后缀名
        let suffix = src.toString().slice(-4);
        // 拼接路径
        let path = photoSavePath + '/' + filename + suffix;
        // 下载
        request.get(src, {timeout: timeout}, err => {
            err ? console.log('Method: downloadPhoto => download error\n' + err) : null;
        }).pipe(fs.createWriteStream(path));
    }
}

图 1
在这里插入图片描述
图2
在这里插入图片描述

  • 10
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Java 通过反爬虫技术实现文本防盗,主要是通过对网站内容进行加密或者混淆,以防止机器人或者爬虫直接复制网站内容。具体步骤如下: 1. 将网站内容分成多个部分,每个部分使用不同的加密或者混淆方式进行处理。例如,可以将网站内容分成 HTML、CSS、JavaScript 等多个部分,然后对每个部分使用不同的加密或者混淆方式进行处理。 2. 对 HTML 部分进行加密或者混淆,可以使用一些开源的 HTML 加密或者混淆工具,例如 jScrambler、Obfuscator-LLVM 等。这些工具可以将 HTML 代码进行混淆,使得机器人或者爬虫无法直接复制网站内容。 3. 对 CSS 部分进行加密或者混淆,可以使用 CSS 的压缩和混淆工具,例如 YUI Compressor、CSSO 等。这些工具可以将 CSS 代码进行压缩和混淆,使得机器人或者爬虫无法直接复制网站样式。 4. 对 JavaScript 部分进行加密或者混淆,可以使用一些开源的 JavaScript 加密或者混淆工具,例如 UglifyJS、Closure Compiler 等。这些工具可以将 JavaScript 代码进行加密和混淆,使得机器人或者爬虫无法直接复制网站脚本。 5. 在网页中通过 JavaScript 动态拼接成完整的内容。例如,可以使用 jQuery 等 JavaScript 框架来动态加载和拼接网页内容,从而避免机器人或者爬虫直接复制网站内容。 需要注意的是,反爬虫技术也不是绝对可靠的,因为攻击者可以使用各种手段来绕过反爬虫技术。因此,在实际应用中,需要不断地改进和完善反爬虫技术,以提高防范攻击的能力。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值