【直接在浏览器中执行】提取当前页面中所有的URL链接地址,并导出为一个JSON文件

1 篇文章 0 订阅
1 篇文章 0 订阅

以Chrome为例,F12进入开发者模式,在控制台(Console)中粘贴以下代码并回车:

var links = [];
var allLinks = document.getElementsByTagName("a");
for (var i = 0; i < allLinks.length; i++) {
  var link = allLinks[i];
  if (link.href) {
    links.push(link.href);
  }
}
var jsonString = JSON.stringify(links, null, 2);
var blob = new Blob([jsonString], { type: "application/json" });
var url = window.URL.createObjectURL(blob);
var downloadLink = document.createElement("a");
downloadLink.href = url;
downloadLink.download = "links.json";
document.body.appendChild(downloadLink);
downloadLink.click();
window.URL.revokeObjectURL(url);
document.body.removeChild(downloadLink);

浏览器会自动下载一个links.json文件
在这里插入图片描述
JSON文件内容

要使用Edge浏览器抓取微博博文数据,通常涉及到网络请求分析、数据提取和处理等步骤。这里提供一个基本的思路: 1. 使用Edge浏览器打开微博博文页面。 2. 在浏览器打开开发者工具(通常是按F12或者右键选择“检查”)。 3. 进入“网络”(Network)标签页,然后刷新页面,这样你可以观察到页面加载时的所有网络请求。 4. 找到加载微博博文数据的请求。这通常需要根据请求的名称、URL或者响应内容来判断哪个是博文数据。有时,可以通过检查请求的“Referer”字段来排除不相关的请求。 5. 分析该请求的详情,包括请求URL请求方法(如GET或POST)、请求头(Headers)和请求参数(Query String)。 6. 如果需要模拟该请求,可以使用Postman这样的工具,根据分析得到的细节构造请求。 7. 发送请求后,你会得到响应数据,通常为JSON格式。可以查看响应的详细内容,并从提取你需要的微博博文数据。 8. 如果要自动化这个过程,可以使用脚本语言如JavaScript配合Edge的开发者工具API,或者使用其他编程语言配合相关库(如Python的requests库)来编写代码,实现数据的自动抓取。 需要注意的是,微博作为第三方服务,其数据抓取应遵守相关法律法规以及微博的服务条款。此外,由于网页结构和API可能会发生变化,实际操作时需要根据具体情况调整抓取策略。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值