前端也可以爬虫,写于2018年08月29日,现在发布到微信公众号申明原创。
掘金@若川 本文章链接:https://juejin.im/post/5b86732451882542af1c8082
1、 puppeteer
是什么?
puppeteer
: Google
官方出品的 headless
Chrome
node
库puppeteer
github
仓库puppeteer
API
官方介绍:
您可以在浏览器中手动执行的大多数操作都可以使用
Puppeteer
完成!生成页面的屏幕截图和
抓取SPA
并生成预渲染内容(即“SSR
”)。
自动化表单提交,UI
测试,键盘输入等。
创建最新的自动化测试环境。使用最新的JavaScript
和浏览器功能直接在最新版本的Chrome
中运行测试。
捕获时间线跟踪 您的网站,以帮助诊断性能问题。
测试Chrome
扩展程序。
2、爬取网站生成 PDF
2.1 安装 puppeteer
# 安装 puppeteer
# 可能会因为网络原因安装失败,可使用淘宝镜像
# npm install -g cnpm --registry=https://registry.npm.taobao.org
npm i puppeteer
# or "yarn add puppeteer"
2.2 《 React.js
小书》简介
《
React.js
小书》简介
关于作者@胡子大哈
这是⼀本关于 React.js 的⼩书。因为⼯作中⼀直在使⽤React.js
,也⼀直以来想总结⼀下⾃⼰关于React.js
的⼀些 知识、经验。于是把⼀些想法慢慢整理书写下来,做成⼀本开源、免费、专业、简单的⼊⻔级别的⼩书,提供给社区。希望能够帮助到更多React.js
刚⼊⻔朋友。
下图是《React.js
小书》部分截图:
2.3 一些可能会用到的 puppeteer API
// 新建 reactMiniBook.js, 运行 node reactMiniBook.js 生成pdf
const puppeteer = require('puppeteer');
(async () => {
// 启动浏览器
const browser = await puppeteer.launch({
// 无界面 默认为true,改成false,则可以看到浏览器操作&#x