是的,我同意靓汤是个好方法。下面是一些Python代码,它使用Beautiful Soup库从IVV fund页面提取当天价格:import requests
from bs4 import BeautifulSoup
r = requests.get("https://www.marketwatch.com/investing/fund/ivv")
html = r.text
soup = BeautifulSoup(html, "html.parser")
if soup.h1.string == "Pardon Our Interruption...":
print("They detected we are a bot. We hit a captcha.")
else:
price = soup.find("h3", class_="intraday__price").find("bg-quote").string
print(price)
价格经常变动这一事实不是问题。HTML标记的名称和类将保持不变。这就是你所需要的美丽的汤。在
你的主要挑战是网站能够检测到你没有使用互联网浏览器,并且会显示你的Python脚本的验证码。所以你需要找到一个方法来解决这个问题。另外,我建议检查一下刮擦的合法性以及是否违反了他们的服务条款。在
您可以在这里了解更多关于靓汤的信息: