爬虫:爬取股票历史交易数据

本文介绍了如何使用爬虫从东方财富网和网易财经获取股票代码及历史交易数据。首先,制定了爬虫策略,包括从东方财富网抓取股票代码并过滤基金代码,然后利用BeautifulSoup解析网页。接着,通过分析网页结构获取下载CSV数据所需的参数。最后,讨论了数据存储和后续处理的可能性。
摘要由CSDN通过智能技术生成

爬虫策略制定

1、 从东方财富网中获取(http://quote.eastmoney.com/stocklist.html)股票代码
2、 从网易财经中可以直接下载csv格式文件,地址类似于http://quotes.money.163.com/trade/lsjysj_600508.html#01b07
3、 两个网站都不需要cookie,很好爬,注意控制访问时间间隔就可以,爬信息不要太暴力了
4、 东方财富网中获取的股票代码中好多都是基金的代码(如1 、5 、等开头),这类基金在网易财经中无法获得数据,故要ban掉这些股票代码

获取股票代码

这里要用到beautifulsoup,pip install bs4

这里写图片描述

所有的股票代码都在 <div id="quotesearch"> 下的 两个 <ul> 标签下的 <a> 标签中;
获取的股票代码存储到本地txt ,或者存储到redis数据数据库中, 方便分布式爬取或是中途停止重新爬取

redis安装可以看这里:https://blog.csdn.net/tonydz0523/article/details/82493480

代码如下:

import requests
import random
from bs4 import BeautifulSoup as bs
import time
import redis

def get_stock_names():
    """
    通过东方财富网上爬取股票的名称代码,并存入redis数据库和本地txt文档
    """
    rds = redis.from_url('redis://:666666@192.168.3.98:6379', db=1, decode_responses=True)   # 连接redis db1

    url = "http://quote.eastmoney.com/stocklist.html"
    headers = {
            'Referer': 'http://quote.eastmoney.com',
            'User-Agent': 
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值