使用nodejs爬取某网站数据

4 篇文章 0 订阅

记录使用nodejs爬取某网站数据

其实就是获取一个模板网站的模板,因为偶尔会有需要模板使用,但是这个网站禁用f12,虽然我view-source就可以拿到真实链接但是这样也显得麻烦,所以干脆把它数据搞下来处理后搞一个自己用的模板网站

首先引入需要的东西
const axios = require('axios');
const cheerio = require('cheerio');
const mysql = require('mysql');
const sqlconn = mysql.createConnection({ //配置数据库连接
    host     : 'localhost',
    user     : 'root',
    password : '不给你看',
    database : '不给你看'
});
sqlconn.connect(); //链接数据库

axios和cheerio是要npm安装再引入
axios用来请求数据,
cheerio能够将html字符建立DOM树也即是一个html结构,然后就可以对解析出来的内容像在浏览器一样对DOM操作.
mysql就是插入数据不用多说了

主要的代码

有关使用nodejs连接数据库可以看nodejs连接数据库

// Tue Jul 20 21:31:08 CST 2021 - getnums:4000,stari:2000
let getnums = 4000; //获取条数-end
for(let stari = 2000;stari <= getnums; stari++){
    gettmdresource("不让你看"+stari+".html",stari);
}

//获取数据
function gettmdresource(gurl,its){
    axios.post(gurl,{timeout: 1000*60*1}).then(response => {
       if(response.status==200){
           console.log("数据获取成功"+its);
           let sqltext,parmsarr;
           $ = cheerio.load(response.data); //文档获取
   
           sqltext = "INSERT INTO psource(lang,title,description,url) VALUES(?,?,?,?)";
           parmsarr = [$('head>title').text().split(" ")[0],$('head>title').text().split(" ")[1],$("meta[name='description']").attr('content'),$('#iframe').attr('src')];
           console.log(parmsarr.join("->")); //debug
   
           sqlconn.query(sqltext, parmsarr, function (error, results) {
               if(error){
                   console.log('[INSERT ERROR] - ',error.message);
                   return;
               }
           });
       }
    }).catch(error => {
     console.log("获取不到"); //debug
    });
}

因为该网站的模板的url都是一样的结构只是后面几个数字不同,所以for循环遍历就可以搞下来;
我在爬取之前分析了一下模板的预览界面的html结构,最后总结就是我只需要他的title,description,模板真正的url,就ok了,通过jquery获取他们,然后使用mysql的insert将数据插入数据库,大功告成!
在这里插入图片描述

一般来说,在爬取网站列表数据的代码中,你需要获取到每个列表项的链接,然后再通过这个链接去爬取详情数据。可以使用像 `request` 或 `axios` 这样的 Node.js HTTP 客户端,或者使用像 `cheerio` 或 `puppeteer` 这样的 HTML 解析库,来实现这个过程。 下面是一个示例代码,用于爬取一个虚构的网站中的商品列表和商品详情: ```javascript const request = require('request'); const cheerio = require('cheerio'); // 爬取商品列表 request('http://example.com/products', (error, response, body) => { if (error) { console.error(error); return; } const $ = cheerio.load(body); const productLinks = []; // 获取每个商品链接 $('a.product-link').each((i, el) => { const link = $(el).attr('href'); productLinks.push(link); }); // 爬取每个商品的详情 productLinks.forEach(link => { request(`http://example.com${link}`, (error, response, body) => { if (error) { console.error(error); return; } const $ = cheerio.load(body); const productName = $('h1.product-name').text(); const productDescription = $('div.product-description').text(); console.log(`商品名称:${productName}`); console.log(`商品描述:${productDescription}`); }); }); }); ``` 在这个示例中,我们首先使用 `request` 库来请求商品列表页面,然后使用 `cheerio` 库解析 HTML 并获取每个商品的链接。接着,我们遍历每个链接,使用 `request` 库再次请求该链接,然后解析 HTML 并提取商品名称和描述信息。最后,我们将这些信息打印输出到控制台。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值