爬虫跟静态服务器搭建
爬取之前要做的事:
首先下载npm的一个模块
命令:
npm i crawler
下载完你会得到一个名字是node_modules文件夹跟一个package-lock.json文件
注意:
使用第三方模块:
- 新建一个文件夹,文件夹名字非中文,名字也不能跟模块名字一样
- 进到文件夹里,命令运行:npm init -y 初始化一个文件
- 下载模块
- 使用模块
一、爬取网站的内容
var Crawler = require('crawler')
const fs = require('fs')
var c = new Crawler({
maxConnections: 10,
callback: function (error, res, done) {
if (error) {
console.log(error);
} else {
var $ = res.$;
// console.log($('title').text());
//文件夹路径自定义 fs.writeFile('./temp/1.txt', $('body').text(), (err) => {
if (err == null) {
console.log('爬去成功')
}
})
}
done()
}
})
//爬取的网站内容的地址
c.queue('https://ncov.dxy.cn/ncovh5/view/pneumonia')
二、爬取网站的文件
var Crawler = require("crawler");
var fs = require