爬虫

最新推荐文章于 2024-03-27 10:02:28 发布

Cmyu_

最新推荐文章于 2024-03-27 10:02:28 发布

阅读量641

点赞数 1

文章标签： vue

本文链接：https://blog.csdn.net/Cmyu_/article/details/104698874

版权

本文介绍了爬虫的基本步骤，包括使用http/https模块获取网络资源，利用cheerio解析网页内容。讨论了同步异步问题，如回调地狱、Promise优化及async/await的使用。还提到了前端接口测试工具如Postman，并给出了爬虫作业，如下载网站资源。最后，简单讲解了cheerio的用法和Promise的状态管理。

摘要由CSDN通过智能技术生成

爬虫：
竞价排名搜索引擎
1.获取相关的网页
2.根据网页获取内容信息

爬虫的步骤：
1.通过http 或者 https模块获取网络资源（网页记事本图片音频视频）

http.get(url,(res)=>{
  let rawData=''
  res.on('data',(chunk)=>{
    <!-- 传递完一段数据就会触发 chunk 传递的每一段数据 -->
    rawData+=chunk
  })

  res.on('end',()=>{
    <!-- 数据传输完毕 -->
  })
})
.on('error',()=>{
})

2.分析内容（正则表达式）
cheerio 获取网页的具体内容信息