前嗅ForeSpider脚本教程-链接抽取:链接在POST请求里写脚本

122 篇文章 2 订阅
121 篇文章 0 订阅

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在POST请求里写脚本的实战教程。具体内容如下:

 

当链接地址在源码中不存在,存在于post请求中时,需要使用浏览器的开发者工具来查找链接数据。

1.链接需要循环

场景:一组链接存在于JSON的某个数组中。

示例:采集豆瓣电影,列表页的电影链接。

 

 

查看源文件可知,源文件中只有一部分数据,而下拉列表出现的其他电影信息不存在源码中,此时我们需要在请求的响应正文中查找数据。在该页面右键点击“审查元素”,下拉,点击“加载更多”,出现一个请求包,查看Response,发现链接地址存在于,返回正文中。

 

 

将Response中的信息粘贴到json查看器中,以notepad++插件“JSON Viewer”为例,定位数据存在路径。

 

 

脚本实例:

var urs = “https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=60”;
var groc = EXTRACT.OpenDoc(CHANN,urs,0);
if(groc){ 
    var jsonStr = groc.GetDom().GetSource().ToStr();
    jScript js; 
    var json = js.RunJson(jsonStr); 
    var arr = json.subjects; 
    for(int i=0;i<arr.size;i++){ 
        url u; 
        u.title=””;
        u.urlname=arr[i].url; 
        u.entryid=CHANN.id; 
        u.tmplid=2; 
        RESULT.AddLink(u);     
        } 
    }

    

2.不循环

场景:少数链接是JSON的某个键值。

示例:暂无。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值