爬取股票的历史数据(个股)

该博客介绍了使用Python和Selenium爬取股票历史数据的方法。先从指定网站爬取股票代码,再循环模拟下载数据过程,爬取网易财经的个股历史数据。同时解决了Chrome弹窗问题,实现隐藏浏览器爬取。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

股票的历史数据爬取

爬取网易财经的个股历史数据
爬取链接:http://quotes.money.163.com/trade/lsjysj_000001.html?
在这里插入图片描述

先爬取股票的对应的代码

爬取股票代码的网站
https://www.banban.cn/gupiao/list_sh.html

代码

import requests,pymysql,re,datetime
import pandas as pd
from bs4 import BeautifulSoup
from sqlalchemy import create_engine
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from time import sleep
#1.创建Chrome浏览器对象,这会在电脑上在打开一个浏览器窗口   
headers={
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36'
}
def DownStockCode():
    print('开始获取上证、深证股票代码')
    count = 0
    stockcodeList=[]
    urlList = ['https://www.banban.cn/gupiao/list_sh.html','https://www.banban.cn/gupiao/list_sz.html']
    for url in urlList:
        res = requests.get(url=url,headers=headers)
        bs_res = BeautifulSoup(res.text,'html.parser')
        stocklist=bs_res.find('div',id='ctrlfscont').find_all('li')
        for stock in stocklist:
                    stockhref=stock.find('a')['href']
                    list_stockhref=stockhref.strip().split('/')
                    stock_code=list_stockhref[2]
                    stockcodeList.append(stock_code)
                    count += 1
                    print('当前已获取{}只股票代码'.format(count),end='\r')
    print('已获取所有上证、深证股票代码:{}个'.format(count))
    return stockcodeList 

在这里插入图片描述

然后循环模拟下载数据的过程
在这里插入图片描述

全部代码(运用到selenium)

之前没有解决的问题是chrome会弹窗出来,隐藏浏览器

#隐藏浏览器
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
#隐藏浏览器

新代码

import requests,pymysql,re,datetime
import pandas as pd
from bs4 import BeautifulSoup
from sqlalchemy import create_engine
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from time import sleep
from selenium.webdriver.chrome.options import Options
from PIL import Image,ImageEnhance
#1.创建Chrome浏览器对象,这会在电脑上在打开一个浏览器窗口   
headers={
'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36'
}
def DownStockCode():
    print('开始获取上证、深证股票代码')
    count = 0
    stockcodeList=[]
    urlList = ['https://www.banban.cn/gupiao/list_sh.html','https://www.banban.cn/gupiao/list_sz.html']
    for url in urlList:
        res = requests.get(url=url,headers=headers)
        bs_res = BeautifulSoup(res.text,'html.parser')
        stocklist=bs_res.find('div',id='ctrlfscont').find_all('li')
        for stock in stocklist:
                    stockhref=stock.find('a')['href']
                    list_stockhref=stockhref.strip().split('/')
                    stock_code=list_stockhref[2]
                    stockcodeList.append(stock_code)
                    count += 1
                    print('当前已获取{}只股票代码'.format(count),end='\r')
    print('已获取所有上证、深证股票代码:{}个'.format(count))
    return stockcodeList 
all_code = DownStockCode()
#隐藏浏览器
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
#隐藏浏览器
browser = webdriver.Chrome(chrome_options=chrome_options)#声明浏览器

chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])
chrome_options.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36')
#chrome_options.add_argument("--headless")
#browser = webdriver.Chrome(options=chrome_options) 


 

for i in all_code:
#2.通过浏览器向服务器发送URL请求
    
    try:
        
        browser = webdriver.Chrome(options=chrome_options) 
        browser.get("http://quotes.money.163.com/trade/lsjysj_"+i+".html?")
        sleep(5)

#3.刷新浏览器
   
#定位按钮并点击
#4.设置浏览器的大小
        browser.set_window_size(1400,800)
        
        browser.find_element_by_xpath('//*[@id="downloadData"]').click()
        browser.find_element_by_xpath('/html/body/div[2]/div[5]/div[2]/form/div[3]/a[1]').click()
    
        sleep(2)
        browser.quit()
    except:
        continue
    

    

### 如何使用 Tushare 库爬取股票数据 #### 安装依赖库 为了能够顺利运行代码,需要先安装 `tushare` 和其他必要的 Python 包。可以通过 pip 或者 conda 来完成这些操作。 ```bash pip install tushare pandas numpy matplotlib seaborn ``` 或者对于 Anaconda 用户: ```bash conda install -c conda-forge tushare pandas numpy matplotlib seaborn ``` #### 获取 API Token 并初始化连接 访问 Tushare 的服务前,需前往官网注册账号并获得个人专属的 API token[^1]。接着,在项目文件夹下创建一个新的 Python 文件来编写如下所示的基础配置代码片段: ```python import tushare as ts ts.set_token('your_api_token_here') # 替换成自己的token pro = ts.pro_api() ``` #### 查询沪深300成分股列表 下面这段代码展示了怎样调用接口取得当前沪深300指数中的所有成员公司信息,并将其保存到本地 CSV 文件中以便后续分析处理[^3]: ```python # 获取沪深300最新成份股数据 hs300s = pro.index_weight(index_code='000300.SH', start_date='20230101') # 将结果导出至csv文件 output_file_path = './data/HS300_components.csv' hs300s.to_csv(output_file_path, index=False) print(f'已成功下载沪深300成分股名单并存储于 {output_file_path}') ``` #### 下载单只个股的日K线记录 这里提供了一个简单的例子用于抓取特定时间段内某支具体股票的历史收盘价等重要指标[^4]: ```python def get_stock_daily(ts_code, start_date=None, end_date=None): df = pro.daily(ts_code=ts_code, start_date=start_date, end_date=end_date) return df.sort_values(by=['trade_date']) stock_data = get_stock_daily('600519.SH', '20230101', '20231231') print(stock_data.head()) ``` 上述函数接收三个参数:目标证券代码(`ts_code`)、起始日期(`start_date`)以及结束日期(`end_date`);它会返回一个按照交易日升序排列的数据框对象(df),其中包含了所选期间该股票每日开盘价(open)、最高价(high)、最低价(low)、收盘价(close)等相关市场表现详情。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值