nodejs 从入门到入狱---爬虫篇

最新推荐文章于 2024-07-26 08:57:17 发布

低调的小呆瓜

最新推荐文章于 2024-07-26 08:57:17 发布

阅读量818

点赞数 1

文章标签： node.js javascript mysql

本文链接：https://blog.csdn.net/qq_40355857/article/details/120152574

版权

本文介绍了如何使用Node.js构建一个简单的爬虫，从创建Express服务、配置静态文件托管、设定API接口，到连接MySQL数据库并实现定时任务。作者还分享了如何进行请求转发和抓取网页内容，提供了完整的代码示例。

摘要由CSDN通过智能技术生成

Node.js是一个Javascript运行环境，对于我这种前端出身的小白而言是涉及后端学习的最快的路径。所以我就尝试用node做个简单的爬虫去获取第三方开放信息的网页存入自己数据库的demo（不建议大家去做爬政府以及敏感网站）。为了能让所有人都能看明白我尽量从0开始搭建，如果只想看爬虫代码建议直接翻到最后。我这里用了最常规的开发方式基于express+mysql开发，但是如果大家用于公司产品开发我还是推荐用egg.js或者nest.js 简直爽的飞起。废话不多说看栗子：

1.目录结构

既然是demo那就简单来写在根目录下新起一个server.js文件可以参考我的目录结构：

2.服务配置

在server.js里面引用express并监听端口服务：

const express = require('express')

const app = express()

const server = app.listen(8888, (res) => {

    console.log("服务器已启动" + 8888)

})

这样一个简单的express服务就写好了，如果我们需要映射前端的静态页面可以利用静态文件托管去把html文件映射出来

const express = require('express')

const app = express()

app.use(express.static('dist'));  //静态托管

const server = app.listen(8888, (res) => {

    console.log("服务器已启动" + 8888)

})

我的dist目录是vue项目打包出来的， dist目录下需要有index.html。如果想自定义设置可以把静态文件托管代码改为app.use(express.static(__dirname + '/自己的html相对路径.html'))