node爬虫

node爬虫

爬虫——静态页面

参考视频:https://www.bilibili.com/video/BV16p4y1D7cD?from=search&seid=14408300253616815627

首先可以网页中通过F12定位到元素,复制它的class属性,在console中进行测试,是否可以获取到数据,如:$(’.wea_weather em’).text()

1.引入superagent,支持许多高级HTTP客户端功能,需要向他发送一个http请求来抓取网页内容

安装:npm i --save superagent

2.引入cheerio,用来解析html非常方便,就像在浏览器中使用jquery一样,这里讲superagent获取的html进行解析

安装:npm i --save cheerio

下面的案例中还使用了发送邮件的功能不过有点问题,可以实现发送邮件,但是会发送两封,而且在"“已发送”"中看不到我发的邮件

模板引擎index.ejs

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>
<body>
    <h2>今天气温<span style="color: red;">{{mojiData.temperature}}</span>度</h2>
    <h3>今天天气是<span style="color: red;">{{mojiData.text}}</span>:
        <img src="{{mojiData.weather}}" alt="" style="background-color: lightskyblue;">
    </h3>
    
    <img src="{{oneData.img}}" alt="">
    <p style="color:red">{{oneData.desc}}</p>
    
</body>
</html>

reptile.js

//引入superagent,支持许多高级HTTP客户端功能,要抓取网页内容,需要向他发送一个http请求
const superagent = require('superagent')
//引入cheerio,用来解析html非常方便,就像在浏览器中使用jquery一样,这里讲superagent获取的html进行解析
const cheerio = require('cheerio')
const template = require('art-template')
const path = require('path')
//引入发送邮箱的包
const nodemailer = require('nodemailer')
const {
    resolve
} = require('path')


/**
 * 爬取墨迹天气的数据
 *
 */
function getMojiData() {
    //返回一个promise对象,通过async/await获取该对象
    return new Promise((resolve, reject) => {
        superagent
            .get('https://tianqi.moji.com/weather/china/jiangxi/nanchang')
            .end((err, res) => {
                if (err) {
                    console.log('数据请求失败:' + err)
                }
                //获取到html
                //console.log(res.text)
                //把字符串res.text解析成html
                const $ = cheerio.load(res.text)
                //再到网页中通过F12找到数据的css,获取温度
                const temperature = $('.wea_weather em').text()
                //获取天气
                const weather = $('.wea_weather span img').attr('src')
                const text = $('.wea_weather b').text()
                // console.log(temperature)
                //封装数据
                let mojiData = {
                    temperature,
                    weather,
                    text
                }
                resolve(mojiData)
            })
    });

}
/**
*	第二种方式使用async获取数据
 * 不用new promise对象,使用async返回一个promise,但是使用let和const无法返回数据,需要使用var来定义变量,提升作用域。其他两个不能提升作用域
 */
/* async function getMojiData() {
    //返回一个promise对象,通过async/await获取该对象
    var mojiData
        superagent
            .get('http://www.itcast.cn/news/json/f1f5ccee-1158-49a6-b7c4-f0bf40d5161a.json')
            .end((err, res) => {
                if (err) {
                    console.log('数据请求失败:' + err)
                }
                //获取到html
                console.log(res.text)
                //把字符串res.text解析成html
                const $ = cheerio.load(res.text)
                //再到网页中通过F12找到数据的css,获取温度
                const temperature = $('.wea_weather em').text()
                //获取天气
                const weather = $('.wea_weather span img').attr('src')
                const text = $('.wea_weather b').text()
                // console.log(temperature)
                //封装数据
                 mojiData = {
                    temperature,
                    weather,
                    text
                }
                //console.log(mojiData)
            })
            return mojiData
} */
/**
 * 在http://http://wufazhuce.com/中图片,该网站(简称one)可以一天换一个图片和图片描述
 */
 function getOneData() {
    return new Promise((resolve, reject) => {
        superagent
            .post('http://wufazhuce.com/')
            .end((err, res) => {
                if (err) {
                    console.log('数据请求失败:' + err)
                }
                const $ = cheerio.load(res.text)
                //获取第一张图片
                const img = $('.carousel-inner>.item>img, .carousel-inner>.item>a>img').eq(0).attr('src')
                //获取第一张图片的描述
                const desc = $('.fp-one .fp-one-cita-wrapper .fp-one-cita a').eq(0).text()
                // console.log(img)
                // console.log(desc)
                //封装数据
                let oneData = {
                    img,
                    desc
                }
                resolve(oneData)
            })
    })
}

async function renderTemplater() {
    const mojiData = await getMojiData()
    const oneData = await getOneData();
    //console.log(mojiData+'__'+oneData)

    //渲染模板
    return new Promise((resolve, reject) => {
        const html = template(path.join(__dirname) + '/views/index.ejs', {
            mojiData,
            oneData
        })
        resolve(html)
    })

    //console.log(html)


}

/**
 * 将渲染的模板发送到邮箱
 */
async function sendNodeMail() {
    //需要发送的内容 ,html页面内容
    let html = await renderTemplater()
    let transporter = nodemailer.createTransport({
        host: "smtp.qq.com", //某某邮箱的服务器地址,百度搜索怎么获取这个
        port: 465, //某某邮箱的端口
        secure: true, //开启加密协议
        auth: {
            user: "2690557628@qq.com", //用户名
            pass: "yxpfvsjbvhhzdhch" // 客户端的授权密码,并不是自己的邮箱密码
        }
    })
    //设置电子邮件数据
    let mailOptions = await transporter.sendMail({
        from: '"帅气的小哥哥" <2690557628@qq.com>', // 发件人邮箱
        to: "lin.zhengyang@free-sun.com.cn", // 收件人列表,可以是单个,也可以是多个,用逗号隔开,发给我的飞尚邮箱
        subject: "node爬虫发送渲染后的ejs模板", // 标题
        html: html, // 内容
    });
    //执行发送
    transporter.sendMail(mailOptions, (error, info = {}) => {
        if (error) {
            console.log(error)
            sendNodeMail() //如果发生错误,再次发送
        }
        console.log('发送成功:' + info.messageId)
        console.log('静等下一次发送')
    })
}
//getMojiData()
//getOneData()
//renderTemplater()
sendNodeMail()

爬虫——动态页面

动态页面就是使用了模板引擎,动态的加载出数据,如新闻数据:http://www.itcast.cn/newsvideo/newslist.html

1、打开网页,F12查看网页源码,点开Network,再点刷新页面,先点击XHR(xmlhttpRequest指ajax对象)过滤,点击文件,查看哪个文件的preview中有你要的数据,

2、再点开Headers,复制它的URL,如:(Request URL: http://www.itcast.cn/news/json/f1f5ccee-1158-49a6-b7c4-f0bf40d5161a.json)

获取动态页面内容的方法发案例:

function getActionData() {
    //返回一个promise对象,通过async/await获取该对象
    return new Promise((resolve, reject) => {
        superagent
            .get('http://www.itcast.cn/news/json/f1f5ccee-1158-49a6-b7c4-f0bf40d5161a.json')
            .end((err, res) => {
                if (err) {
                    console.log('数据请求失败:' + err)
                }
                //获取到html数据,将json数据转为对象,便于获取数据
                const result = JSON.parse(res.text)
                //爬取所有标题
                for (let i = 0; i < result.data.length; i++) {

                    console.log(result.data[i].title)
                }
            })
    })
}
getActionData()
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值