casperjs爬虫总结 -- (3) 抓取百度萝莉吧图片

1 我的casper文件夹结构|data--|a.json--|b.json|fetch--|tieba.js|format--|tieba.xmlcommon.jssaveToFile.js解释:data文件夹用来存储爬来的信息,文件格式为json其中遇到图片信息,一律用base64来储存fetch文件夹用来放置针对某个
摘要由CSDN通过智能技术生成
1 我的casper文件夹结构
|data
--|a.json
--|b.json
|fetch
--|tieba.js
|format
--|tieba.xml
common.js
saveToFile.js


解释:
data文件夹
用来存储爬来的信息,文件格式为json
其中遇到图片信息,一律用base64来储存


fetch文件夹
用来放置针对某个页面的抓取规则
因为我们以后可以要抓取别的网站的信息,而他们的dom结构是不一样的


format文件夹
记录以下dom结构,笔记而已,可以忽略


common.js
一般的casper实例的生成,以及其抓取信息的一般流程


saveToFile.js
把信息保存到data文件夹下


2 common.js(重点解释)
代码以及注释
/*
首先来看下我们的使用方式
casperjs ./casper/common.js --url="http://tieba.baidu.com/f?kw=%D0%A1%C2%DC%C0%F2&fr=index" --category=dino --fetch=tieba
*/

// 生成casper的实例
// verbose默认值为false,即不输出来自phantom的信息(请记住,casper是基于phantom的)
// logLevel表示何种级别输出信息,枚举为debug, inf
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值