python爬取沪深所有股票数据并生成Excel文件

最新推荐文章于 2024-08-09 22:54:05 发布

Yixin_Hu

最新推荐文章于 2024-08-09 22:54:05 发布

阅读量1.9w

点赞数 16

分类专栏： python 文章标签： python 爬虫股票 request 文科生

本文链接：https://blog.csdn.net/Yixin_Hu/article/details/90272302

版权

本文介绍如何使用Python爬取沪深股市所有股票的基本信息，包括股票代码、名称、最高价等，并将数据存储到Excel文件中。首先分析需求，接着选择股城网作为数据来源，利用python的requests和相关库实现爬虫，最后展示完整源码并提及参考的博客文章。

摘要由CSDN通过智能技术生成

爬取沪深所有股票数据并生成Excel文件

一、分析需求

1、对于沪深两市的各只股票，获取其：‘股票代码’, ‘股票名称’, ‘最高’, ‘最低’, ‘涨停’, ‘跌停’, ‘换手率’, ‘振幅’, '成交量’等信息；
2、将获取的信息存放在Excel文件中，股票信息属性作为表头，每只股票信息作为表格的一行，每个单元格存放一个信息。

#程序运行结果如下：

二、分析需求并设计算法

1、确定爬取的网站
　　选取网站的原则有以下三点：
　　①网站包含所有沪深股票信息；
　　②网站robots协议允许非商业爬虫；
　　③网站的源代码是脚本语言，而非JavaScript；
　　综上三点，我们最终选取网站为：股城网
　　
2、选择爬取的工具
　　本例使用python爬取信息，并引用以下三方库：

三方库名称	功能简介及在本例中的作用
requests	用于http请求的模块，可以获取HTML；本例用于获取股城网HTML
BeautifulSoup4	解析、遍历、维护“标签树”(例如html、xml等格式的数据对象)的功能库；本例用于解析目标对象，获得股票信息。
re	有强大的正则表达式工具,允许你快速检查给定字符串是否与给定的模式匹配；本例用于查找匹配股票代码格式的字符串，提取股票代码。
xlwt	支持python语言对Excel表格的操作；本例用于存储爬取的信息
time	time提供了一些处理日期和一天内时间的函数. 它是建立在 C 运行时库的简单封装；本例用于计算程序运行耗费时间。

3、实现步骤
　　为实现需求，分以下三步实现：
　　①向爬取对象发送http请求，获取HTML文本；
　　②获取所有股票代码，存入列表，将用于生成单只股票URL。从股城网我们可以看到单只股票的网页URL格式为“https://hq.gucheng.com/股票代码/”，如平安银行的url为https://hq.gucheng.com/SZ000001/；
　　③对每只股票的网页进行爬取，并解析网页，将获取的信息存入字典中；
　　④将股票信息存入TXT文件中；
　　⑤将TXT文件转换为Excel。

三、完整源码展示

#CrawGuchengStocks.py
import requests
from bs4 import BeautifulSoup
import re     #引入正则表达式库，便于后续提取股票代码
import xlwt   #引入xlwt库，对Excel进行操作。
import time   #引入time库，计算爬虫总共花费的时间。
 

def getHTMLText(url, code="utf-8"):  #获取HTML文本
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = code
        return r.text
    except:
        return ""
        
def getStockList(lst, stockURL):          #获取股票代码列表
    html = getHTMLText(stockURL, "GB2312")
    soup = BeautifulSoup(html, 'html.parser') 
    a = soup.find_all('a')      #得到一个列表
    for i in a:
        try:
            href = i.attrs[