nodejs爬虫的入门

本文介绍了使用Node.js入门爬虫的基本步骤。首先通过request模块发起HTTP请求获取HTML页面,cheerio库则提供了类似jQuery的操作方式来解析HTML。爬虫主要分为两个步骤:第一步,使用request模块获取网页HTML内容;第二步,利用cheerio从HTML中提取所需信息,如链接。示例代码展示了如何过滤并获取网页中的外部链接。
摘要由CSDN通过智能技术生成

首先想清楚你到底用什么做。
因为不同的用法有细微的区别。最方便入门的应该是使用request和cheerio。cheerio是nodejs中的jquery。request是更方便的http模块。
爬虫其实就是两步:
第一步从网上把整个html读下来;其实就是req.get()这一个函数而已,此时的nodejs相当于一个客户端,向服务端的host发出request请求,得到一个回调函数callback,这里是箭头函数的形式,有三个参数error,response和body。body是返回的html文件。
而第一个是传入的url,除了需要爬取的链接的地址外,还可以对http的访问头进行修改。

req.get({
   
    url:"https://www.scut.edu.cn/new/",
    json: true,
    encoding : 'utf-8',
    port: 443,
    headers: {
   
        "content-type": "application/json",
        "accept": "application/json",
        "User-Agent": "SCUT-NIRCourse-TEST",
        "Upgrade-Insecure-Requests": "1"
    }
}, (err, res, body)=>{
   
    if(!err)
    {
   
        // console.log(body);
        dohtml(body);
    }
    else
        console.log(err);
})

这里特意和http的区分一下写法。http引入的url在这里可以是完整的url,也可以是host加上path,但是注意host是要访问的主机名,不能算上http或者https的协议名,path则是后面再后面具体的地址。
先忽略promise的用法,直接看https.get的内容,可以看出结构应该也是https.get(url,callback).on();
里面的res.on()就像onclick一样,是个等待触发的函数,如果满足条件就执行。比如如果是res.on(data)就是当data的数据流出现时,执行下面的内容。

let uri = {
   
    // url: baseUrl,
    host : 'scut.edu.cn',
    // path : "new",
    json: true,
    encoding 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值