python爬虫:英为财情爬取美国十年期国债收益率

from bs4 import BeautifulSoup as bs
from time import sleep
import re
import pandas as pd
from selenium.webdriver.common.by import By
import undetected_chromedriver.v2 as uc
browser = uc.Chrome()  
browser.get('具体网址')

sleep(6)

#browser.maximize_window()
sleep(5)
browser.find_element(by=By.XPATH,value='//*[@id="widget"]').click()

sleep(5)
browser.find_element(by=By.XPATH,value = '//*[@id="startDate"]').clear()
browser.find_element(by=By.XPATH,value ='//*[@id="startDate"]').send_keys('2019/01/01')

sleep(2)
browser.find_element(by=By.XPATH,value ='//*[@id="endDate"]').clear()
browser.find_element(by=By.XPATH,value ='//*[@id="endDate"]').send_keys('2020/10/29')

sleep(2)
browser.find_element(by=By.XPATH,value = '//*[@id="applyBtn"]').click()
sleep(8)

print(browser.current_url)
print(browser.page_source)
a= browser.page_source
soup = bs(a,"lxml")
content = soup.find('div',id="results_box").find_all('tbody')[0].find_all('tr')



resultdf = pd.DataFrame({'date': [],
                   'close': [],
                   'open': [],
                   'high': [],
                   'low': []})
for tr in content:
    td = tr.find_all('td')
    date = re.findall(r'<td[^>]*>(.*?)</td>',str(td[0]),re.I | re.M)[0]
    resultdf=resultdf.append(pd.DataFrame({'date':[date],
                                           'close':[float(td[1].get("data-real-value"))],
                                           'open':[float(td[2].get("data-real-value"))],
                                           'high':[float(td[3].get("data-real-value"))],
                                           'low':[float(td[4].get("data-real-value"))]}),ignore_index=True)
 

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Python爬虫是一种用来从网页中自动提取所需数据的技术。英为财情(英文名Investing)是一家提供全球财经信息的网站,它提供股票、外汇、货、指数等金融市场相关数据,并且有实时更新的功能。 为了使用Python爬取英为财情,我们首先需要了解目标网页的结构和数据。可以使用Python中的库(例如BeautifulSoup、Requests和Selenium等)来发送HTTP请求并解析HTML页面。以下是使用Python爬虫获取英为财情数据的一般步骤: 1. 安装所需的Python库:使用pip install命令安装BeautifulSoup、Requests和其他所需库。 2. 导入所需的Python库:在Python脚本中导入BeautifulSoup、Requests和其他所需库。 3. 发送HTTP请求:使用Requests库发送HTTP GET请求,获取目标网页的HTML页面。 4. 解析HTML页面:使用BeautifulSoup库解析HTML页面,并根据所需数据的位置和标签,使用合适的方法提取数据。 5. 数据处理和存储:对提取到的数据进行处理和清洗,并将其保存到文件、数据库或其他数据存储方式中。 具体到爬取英为财情的示例,我们可以通过以下步骤来实现: 1. 安装所需的Python库:pip install beautifulsoup4 requests 2. 导入所需的Python库:from bs4 import BeautifulSoup import requests 3. 发送HTTP请求:url = "https://www.investing.com/" response = requests.get(url) 4. 解析HTML页面:soup = BeautifulSoup(response.text, 'html.parser') # 解析HTML页面 5. 提取所需数据:根据HTML页面的结构,使用BeautifulSoup库提取所需的数据,例如获取股票名称:stock_name = soup.find("span", class_="instrument-price_last__KQzyA").text 6. 数据处理和存储:对提取到的数据进行处理,并根据需要把数据保存到文件或数据库中。 需要注意的是,爬取网站时应遵守网站的使用规则和使用频率限制,以尊重网站的用户协议和使用准则。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值