前嗅ForeSpider脚本教程:频道脚本使用场景及配置关键词搜索

122 篇文章 2 订阅
121 篇文章 0 订阅

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程中频道脚本的应用场景以及脚本配置关键词搜索的实战教程。具体内容如下:

 

一.频道脚本使用场景

 

当需要手动创建采集源列表,或者完全使用脚本采集数据时,在“频道脚本”处,你可能用到的类为extractor 、result

你可以定义类的对象来使用其成员方法,也可以使用EXTRACT、RESULT两个全局对象。

关于这两个类的详细说明以及该场景的更多示例,可以点击“教程->脚本教程->脚本示例->频道脚本”来查看相关内容。

 

二.脚本配置关键词搜索

 

1.关键词不含验证码

场景:当一类链接中只需要替换一部分字符串,即可得到目标链接。则可以将这部分字符串作为关键词,添加频道脚本,达到链接抽取的目的。

示例:暂无。

 

2.关键词含验证码

场景:当通过可视化方式不能获取验证码刷新事件时,需要手动寻找验证码刷新请求并填写至相应输入框,与此同时,添加验证码参数至参数列表。

示例:采集京东店铺工商信息。

使用开发者工具(以搜狗浏览器为例,在浏览器中按F12打开)抓包,在目标网页右键点击“审查元素”,选择“NetWork”,先清空所有缓存信息,点击验证码图片,查找验证码刷新请求:

“https://mall.jd.com/sys/vc/createVerifyCode.html?random=0.10473700880101844”。

可以发现每次刷新验证码,请求链接中random参数的值都不同,则需要查找random生成的js事件。在网页源码中找到以下代码。

填写js刷新事件于文本框内,值得注意的是,只需修改this.src的值即可。

脚本实例:

var key = EXTRACT.GetSearch(this);
var form = key.Search();
url u;
var postData;
while(form){
var ocrCode = form.verifyCode;
u.urlname = "https://mall.jd.com/"+"showLicence-"+form.text+".html";
u.title = ocrCode;
u.entryid = this.id;
u.tmplid = 1;
postData = "verifyCode="+ocrCode;
var d = EXTRACT.OpenDoc(this,u.urlname,postData,0);
if(d){
this.Run(d,1);
EXTRACT.CloseDoc(d);
     }
form = key.Search();
           }
key.End();

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值