俗话说:预想成其事 必先利其器。选择一个熟悉的工具,是干大事的第一步, so 伟大滴NodeJS作为了我爬网神器。
一、准备工作
- node、npm(基础设施,不必多说)
- superagent (官网:superagent )
- cheerio(官网:cheerio )
二、Code
下面展示一些 内联代码片
。
const request = require('superagent');
const cheerio = require('cheerio');
spiderPage(formatPageData) {
const targetURL = 'www.baidu.com'
return new Promise((resolve,reject)=>{
request.get(targetURL)
.buffer(true)
.end((err,html)=>{
if (err) {
return reject(`访问目标网站错误:${err}`);
}
const htmlText = html.text;
const $ = cheerio.load(htmlText,{ decodeEntities: false });
//使用$ 去解析DoM, 获取你想要的
//.....
});
});
}