抓取
一、新建一个文件夹
文件夹不要是中文
二、下载第三方模块
cmd
进入文件夹地址,输入:npm init -y
进行初始化- 输入
npm i crawler mysql-ithm
下载爬虫和node-orm模板
三、导入模块
const Crawler = require("crawler");
const db = require('mysql-ithm')
四、利用爬虫模块进行抓取数据
- 在王者荣耀官网找到请求,所有英雄的ajax请求
- 其中他的响应就是所有英雄的信息(但是不是详细信息)
- 通过ename属性获取对应英雄的详细信息
比如:猪八戒的ename为:551
其英雄详细地址:
- 通过第三方模块
crawler
来获取所有的英雄详细信息
- 先通过请求herolist接口获取所有ename属性,循环访问所有的英雄详细信息页面,并为爬取详细信息页获取链接
- 在把请求到的数据写到一个数组中,以便做orm插入
var heros = []
var c = new Crawler({
maxConnections: 10,
// This will be called for each crawled page
callback: function (error, res, done) {
if (error) {
console