python scrap_如何构建一个动态的Web scrapler/Crawler:Python

请注意,抓取此网站可能会被标记为“违反服务条款”,此特定网站使用多种技术来避免基于脚本引擎的抓取。在

如果您检查网页,您可能会发现,当您单击“下一步”按钮时,没有XHR请求。因此您可以推断内容只加载了一次。在

如果按大小对请求数据进行排序,您将发现所有数据都是从json file加载的

使用python(但是需要在运行python脚本之前打开页面):import requests

data=requests.get("https://www.bloomberg.com/graphics/ceo-pay-ratio/live-data/ceo-pay-ratio/live/data.json").json()

for each in data['companies']:

try:

print "Company",each['c'],"=> CEO pay ratio",each['cpr']

except:

print "Company",each['c'],"=> no CEO pay ratio !"

给你:

^{pr2}$

也许最好在webrowser中打开json,然后将其保存在本地,而不是尝试请求网站。在

在本地将json保存为data.json之后,可以使用以下命令读取:import json

with open("data.json","r") as f:

cont=f.read()

data=json.loads(cont)

for each in data['companies']:

try:

print "Company",each['c'],"=> CEO pay ratio",each['cpr']

except:

print "Company",each['c'],"=> no CEO pay ratio !"

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值