1 我的casper文件夹结构
|data
--|a.json
--|b.json
|fetch
--|tieba.js
|format
--|tieba.xml
common.js
saveToFile.js
解释:
data文件夹
用来存储爬来的信息,文件格式为json
其中遇到图片信息,一律用base64来储存
fetch文件夹
用来放置针对某个页面的抓取规则
因为我们以后可以要抓取别的网站的信息,而他们的dom结构是不一样的
format文件夹
记录以下dom结构,笔记而已,可以忽略
common.js
一般的casper实例的生成,以及其抓取信息的一般流程
saveToFile.js
把信息保存到data文件夹下
2 common.js(重点解释)
代码以及注释
/*
首先来看下我们的使用方式
casperjs ./casper/common.js --url="http://tieba.baidu.com/f?kw=%D0%A1%C2%DC%C0%F2&fr=index" --category=dino --fetch=tieba
*/
|data
--|a.json
--|b.json
|fetch
--|tieba.js
|format
--|tieba.xml
common.js
saveToFile.js
解释:
data文件夹
用来存储爬来的信息,文件格式为json
其中遇到图片信息,一律用base64来储存
fetch文件夹
用来放置针对某个页面的抓取规则
因为我们以后可以要抓取别的网站的信息,而他们的dom结构是不一样的
format文件夹
记录以下dom结构,笔记而已,可以忽略
common.js
一般的casper实例的生成,以及其抓取信息的一般流程
saveToFile.js
把信息保存到data文件夹下
2 common.js(重点解释)
代码以及注释
/*
首先来看下我们的使用方式
casperjs ./casper/common.js --url="http://tieba.baidu.com/f?kw=%D0%A1%C2%DC%C0%F2&fr=index" --category=dino --fetch=tieba
*/
// 生成casper的实例
// verbose默认值为false,即不输出来自phantom的信息(请记住,casper是基于phantom的)
// logLevel表示何种级别输出信息,枚举为debug, inf