requests爬取股票信息

最新推荐文章于 2023-04-04 20:15:16 发布

aaakirito

最新推荐文章于 2023-04-04 20:15:16 发布

阅读量751

点赞数 1

分类专栏： python 文章标签： python requests 爬虫

本文链接：https://blog.csdn.net/aaakirito/article/details/105346390

版权

python 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

这里讨论的股票信息没有隐藏在js当中的方法

主要利用requests来get每个股票的text

再交替利用re和bs4来解析text里的信息

最后再按照当前的时间来保存股票的信息

由于requests的爬取速度慢，可以选择关闭每个界面编码的识别（假设每个界面的编码相同），可以略微提升速度

显示了完成的进度状况

生成的数据大概在2M左右

# 股域网 https://hq.gucheng.com/gpdmylb.html
# -*- coding: utf-8 -*-
import requests
import re
import bs4
import time
import os
import traceback


def GetHtmlText(url):
    try:
        hd = {'user-agent': 'Mozilla/5.0'}
        r = requests.get(url, headers=hd, timeout=30)
        r.raise_for_status()
        #r.encoding = r.apparent_encoding
        print(r.url)
        return r.text
    except:
        print('getHtmlText error')
        print('status.code:{}'.format(r.status_code))
        return None


def ParsePage(html, ilt):
    try:
        plt_basic = re.search(
            r'<header class="stock_title">.*?<h1>(.*?)</h1>.*?<h2>(.*?)</h2>.*?<em>(.*?)</em>.*?<time>(.*?)</time>',
            html, flags=re.S)
        basic = [plt_basic.group(1), plt_basic.group(2), plt_basic.group(3),
                 plt_basic.group(4)]  # [股票名称,股票代码,交易状态,更新时间]
        plt_price = re.search(
            r'<div class="s_price">.*?em class=".*?">(.*?)</em>.*?<em class=".*?">(.*?)</em>.*?<em class=".*?">(.*?)</em>.*?</div>',
            html, flags=re.S)
        price = [plt_price.group(1), plt_price.group(2),
                 plt_price.group(3)]  # [当前股价,涨跌额，涨跌幅]
        plt_HL = re.search(
            r'<dl class="s_height">.*?<dt>最高</dt>.*?<dd class=".*?">(.*?)</dd>.*?<dt>最低</dt>.*?<dd class=".*?">(.*?)</dd>.*?</dl>',
            html, flags=re.S)
        HL = [plt_HL.group(1), plt_HL.group(2)]  # [最高价，最低价]
        plt_data = re.search(
            r'<div class="s_date">.*?<dt>今开</dt>.*?<dd class=".*?">(.*?)</dd>.*?<dt>昨收</dt>.*?<dd>(.*?)</dd>.*?</dl>'
            r'.*?<dl>.*?<dt>涨停</dt>.*?<dd class=".*?">(.*?)</dd>.*?<dt>跌停</dt>.*?<dd class=".*?">(.*?)</dd>.*?</dl>'
            r'.*?<dl>.*?<dt>换手率</dt>.*?<dd>(.*?)</dd>.*?<dt>振幅</dt>.*?<dd>(.*?)</dd>.*?</dl>'
            r'.*?<dl>.*?<dt>成交量</dt>.*?<dd>(.*?)</dd>.*?<dt>成交额</dt>.*?<dd>(.*?)</dd>.*?</dl>'
            r'.*?<dl>.*?<dt>内盘</dt>.*?<dd>(.*?)</dd>.*?<dt>外盘</dt>.*?<dd>(.*?)</dd>.*?</dl>'
            r'.*?<dl>.*?<dt>委比</dt>.*?<dd>(.*?)</dd>.*?</dl>'
            r'.*?<dl>.*?<dd>(.*?)</dd>.*?<dt>市净率</dt>.*?<dd>(.*?)</dd>.*?</dl>'
            r'.*?<dl>.*?<dt>流通市值</dt>.*?<dd>(.*?)</dd>.*?<dt>总市值</dt>.*?<dd>(.*?)</dd>.*?</div>'
            , html, flags=re.S)
        data = [plt_data.group(1), plt_data.group(2), plt_data.group(3), plt_data.group(4), plt_data.group(5),
                plt_data.group(6), plt_data.group(7), plt_data.group(8), plt_data.group(9), plt_data.group(10),
                plt_data.group(11), plt_data.group(12), plt_data.group(13), plt_data.group(14), plt_data.group(15)]
        # [今开,昨收,涨停,跌停,换手率,振幅,成交量,成交额,内盘,外盘,委比,市盈率(动),市净率,流通市值,总市值]
        ilt.append([basic, price, HL, data])
    except:
        traceback.print_exc()


def PrintWrite(ilt):
    s = [['股票名称', '股票代码', '交易状态', '更新时间'],
         ['当前股价', '涨跌额', '涨跌幅'],
         ['最高价', '最低价'],
         ['今开', '昨收', '涨停', '跌停', '换手率', '振幅', '成交量', '成交额', '内盘', '外盘', '委比', '市盈率(动)', '市净率', '流通市值', '总市值']]
    root = 'stock/'
    ti = time.gmtime()
    path = root + time.strftime('%m_%d_%H_%M', ti) + '.txt'
    if not os.path.exists(root):  # 判断目录是否存在
        os.mkdir(root)
    with open(path, 'wt')as fp:
        for item in ilt:
            try:
                for i in range(len(item)):
                    for j in range(len(item[i])):
                        if ((i + 1) == 4) and ((j + 1) % 5 == 0):
                            fp.write('{}:\t{}\n'.format(s[i][j], item[i][j]))
                            continue
                        fp.write('{}:\t{}\t'.format(s[i][j], item[i][j]))
                    fp.write('\n')
                fp.write('\n\n')
            except:
                print('PrintWrite error')


def main():
    info = list()
    url_all = 'https://hq.gucheng.com/gpdmylb.html'
    html_all = GetHtmlText(url_all)
    match_all = re.search(r'<section class="stockTable">(.*)</section>', html_all, flags=re.S)
    try:
        soup = bs4.BeautifulSoup(match_all.group(1), 'html.parser')
        xx=len(soup('a'))
        count=0
        for line in soup('a'):
            html = GetHtmlText(line.attrs['href'])
            ParsePage(html, info)
            count+=1
            print('当前完成：{:.2f}%({}|{})'.format(count/xx*100,count,xx))
        PrintWrite(info)
    except:
        print('error match')
        traceback.print_exc()


main()

aaakirito

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
requests爬取股票信息

这里讨论的股票信息没有隐藏在js当中的方法主要利用requests来get每个股票的text再交替利用re和bs4来解析text里的信息最后再按照当前的时间来保存股票的信息由于requests的爬取速度慢，可以选择关闭每个界面编码的识别（假设每个界面的编码相同），可以略微提升速度显示了完成的进度状况生成的数据大概在2M左右# 股域网 https://...
复制链接

扫一扫

专栏目录