(二)requests爬取智能合约账户地址及其交易记录

本文介绍了如何使用Python的requests库替代Selenium爬取https://eth.btc.com/accounts上的智能合约账户地址及其交易记录。通过抓包获取请求路径和参数,循环构造请求,并将数据写入文件。
摘要由CSDN通过智能技术生成

1 背景

​ 之前使用Selenium爬取 https://eth.btc.com/accounts 上的账户地址及其交易记录,但是运行时间很长,而且老报一些错误,所以想到换一种方式来爬取智能合约。

2 方法

  • 先对其抓包,获取请求路径和参数
  • 循环构造参数
  • 使用requests.get(url, params).json()请求获取数据并使用json方法序列化结果
  • 处理获取到的数据并将其写入文件

3 步骤

(1)抓包

在这里插入图片描述
在这里插入图片描述

通过分析,获取请求地址和参数,发现只有page和size两个参数。

(2)构造参数 获取数据

A.txt中是爬取的一些账户地址,通过账户地址跟上图中的请求url组合形成请求地址来获取其交易记录

A.txt部分数据示例:

外部地址,1,https://eth.btc.com/accountinfo/0x00000000219ab540356cbb839cbe05303d7705fa,0x00000000219ab540356cbb839cbe05303d7705fa,7513890.00007 ETH,152468
合约地址,2,https://eth.btc.com/accountinfo/0xc02aaa39b223fe8d0a0e5c4f27ead9083c756cc2,0xc02aaa39b223fe8d0a0e5c4f27ead9083c756cc2,6942619.43722 ETH,2774885
外部地址,3,https://eth.btc.com/accountinfo/0xbe0eb53f46cd790cd13851d5eff43d12404d33e8,0xbe0eb53f46cd790cd13851d5eff43d12404d33e8,2296896.46551 ETH,963
外部地址,4,https://eth.btc.com/accountinfo/0x73bceb1cd57c711feac4224d062b0f6ff338501e,0x73bceb1cd57c711feac4224d062b0f6ff338501e,1899046.59613 ETH,320

代码:

import requests

headers = {
   
    'Cookie': 'OCSSID=4df0bjva6j7ejussu8al3eqo03',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36(KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}


def getManyPages(address, t
使用Pythonrequests爬取中国知网(CNKI)的内容需要特别注意,因为知网通常有反爬机制并且限制了非注册用户的数据访问权限。以下是一个简单的步骤概述: 1. **安装requests库**:首先确保已经安装了`requests`库,如果没有,可以运行 `pip install requests`。 2. **模拟请求头**:知网可能会检查请求头以判断是否是合法的用户访问。你需要设置一些基本的User-Agent,例如浏览器版本,以及可能需要的Cookie,以尽可能地模拟正常浏览器访问。 ```python import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3', # 可能需要的Cookie值,具体要看知网的要求 } ``` 3. **处理反爬机制**:知网可能会通过验证码、IP限制等方式阻止直接爬虫。如果遇到这种情况,可能需要使用代理IP、Selenium配合ChromeDriver动态渲染页面获验证码,或者考虑使用专业的数据抓工具如Scrapy。 4. **API访问**:若知网提供API服务,可以直接调用API获数据。然而,大部分学术资源并不开放API,对于论文等详细信息,直接爬取网页内容可能更常见。 5. **遵守规定**:在爬取任何网站时,务必遵守相关法律法规和网站的Robots协议,尊重版权,不要进行大规模、频繁的爬取,以免触发封禁。 由于知网的具体反爬策略可能会改变,以上信息仅供参考,实际操作前应先了解最新的政策和技术限制。同时,很多敏感数据可能无法轻易获到。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值