静态网站 : 数据爬取–>储存:mongodb
、mysql
数据服务 动态网站 –>获取 —模拟浏览器:
phantomJS
、NightMare
、puppeteer
(可以做自动化。模拟真实用户访问))),或者调用api
同步接口
爬虫模块puppteer
官网 https://github.com/GoogleChrome/puppeteer
安装模块:npm i puppeteer -S
可能会爆出错误 ERROR: Failed to download Chromium r515411! Set "PUPPETEER_SKIP_CHROMIUM_DOWNLOAD" env variable to skip download.
是因为在执行安装的过程中需要执行install.js,这里会下载Chromium,官网建议是进行跳过,我们可以执行—ignore-scripts
忽略这个js执行。也可以通过设置环境变量set PUPPETEER_SKIP_CHROMIUM_DOWNLOAD=1
阻止下载Chromium
(因为封网,直接下载会失败)
安装puppeteer: npm i --save puppeteer --ignore-scripts
报错:因为没有·chromium
·文件,需要翻墙,下载地址 :https://download-chromium.appspot.com/
(node:7364) UnhandledPromiseRejectionWarning: Error: Chromium revision is not downloaded. Run "npm install" or <