node.js爬虫

一、node.js爬虫

爬虫: 表示通过服务器端抓取或者获取前端网页中的数据,以下是node.js爬虫的步骤

1.nodejs 爬取网页数据利用http模块中的get方法,http.get(‘爬取的网页url地址’,(req)=>{})
2.爬取的网页需要借助第三方的一个插件cheerio,该插件可以将网页中的数据拿出来,npm install cheerio

二、代码

const http = require('http');
const cheerio = require('cheerio');
const fs = require('fs');
const app = http.createServer((req, res) => {
    http.get('http://www.17989.com/xiaohua/', (newReq) => {
        let str = ''
        newReq.on('data', (chunk) => {
            str += chunk
        })
        newReq.on('end', () => {
            let $ = cheerio.load(str) 
            //1. 定义一个数组,将数据存放到数组中
            let arr = []; //[{title:'笑话标题',content:'笑话内容'},{title:'笑话标题',content:'笑话内容'}]
            $('.hd').each((i, v) => {  
                arr.push({
                    'title': $(v).text(),
                    "content": $(v).next().text()
                })
            });
            // 2.将该数据arr写入到一个json文件中,存放在static中的json文件夹中
            // fs.writeFileSync('./static/json/data.json', JSON.stringify(arr))
            fs.writeFile('./static/data/data.json', JSON.stringify(arr), (err) => {
                console.log(err);
            })
        })
    })
    res.end('ok')
})
app.listen(9999, () => {
    console.log('服务器已启动!!!');
})
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值