一、node.js爬虫
爬虫: 表示通过服务器端抓取或者获取前端网页中的数据,以下是node.js爬虫的步骤
1.nodejs 爬取网页数据利用http模块中的get方法,http.get(‘爬取的网页url地址’,(req)=>{})
2.爬取的网页需要借助第三方的一个插件cheerio,该插件可以将网页中的数据拿出来,npm install cheerio
二、代码
const http = require('http');
const cheerio = require('cheerio');
const fs = require('fs');
const app = http.createServer((req, res) => {
http.get('http://www.17989.com/xiaohua/', (newReq) => {
let str = ''
newReq.on('data', (chunk) => {
str += chunk
})
newReq.on('end', () => {
let $ = cheerio.load(str)
//1. 定义一个数组,将数据存放到数组中
let arr = []; //[{title:'笑话标题',content:'笑话内容'},{title:'笑话标题',content:'笑话内容'}]
$('.hd').each((i, v) => {
arr.push({
'title': $(v).text(),
"content": $(v).next().text()
})
});
// 2.将该数据arr写入到一个json文件中,存放在static中的json文件夹中
// fs.writeFileSync('./static/json/data.json', JSON.stringify(arr))
fs.writeFile('./static/data/data.json', JSON.stringify(arr), (err) => {
console.log(err);
})
})
})
res.end('ok')
})
app.listen(9999, () => {
console.log('服务器已启动!!!');
})