量化学习（三）数据更新

最新推荐文章于 2024-07-15 23:46:30 发布

看客过客皆是客

最新推荐文章于 2024-07-15 23:46:30 发布

阅读量153

点赞数

分类专栏：量化文章标签：学习

本文链接：https://blog.csdn.net/qq_32812063/article/details/129296420

版权

量化专栏收录该内容

4 篇文章 2 订阅

订阅专栏

前置说明
清理了 stock_codes表，仅保留深市数据，参考语句
delete from student where username like 'a%' or username like '%ST'

%代表后面可以匹配任意个字符。如 a% 可以表示以a开头的任意字符串，如：abca ，aaaa，acgfrrrrrr，akjgus，a，ab…%a% 可以表示一个有a的字符串，如：a，sabbb，ddddda，edfg…%a 可以表示以a结尾的字符串，如：a，sa，aaaaa，defsa…

数据获取，开始时间设置为20010101，复权：前复权

import akshare as ak
import sqlalchemy
import datetime
import multiprocessing
import pandas as pd



def create_mysql_engine():
    """
    创建数据库引擎对象
    :return: 新创建的数据库引擎对象
    """

    # 引擎参数信息
    # host = '127.0.0.1'
    # user = 'root'
    # passwd = 'A_quant88'
    # port = '3306'
    # db = 'quantf'
    host = '192.168.9.110'
    user = 'root'
    passwd = 'A_quant88'
    port = '3306'
    db = 'quant'

    # 创建数据库引擎对象
    mysql_engine = sqlalchemy.create_engine(
        'mysql+pymysql://{0}:{1}@{2}:{3}'.format(user, passwd, host, port),
        poolclass=sqlalchemy.pool.NullPool
    )

    # 如果不存在数据库db_quant则创建

    mysql_engine.execute("CREATE DATABASE IF NOT EXISTS {0} ".format(db))

    # 创建连接数据库db_quant的引擎对象
    db_engine = sqlalchemy.create_engine(
        'mysql+pymysql://{0}:{1}@{2}:{3}/{4}?charset=utf8'.format(user, passwd, host, port, db),
        poolclass=sqlalchemy.pool.NullPool
    )

    # 返回引擎对象
    return db_engine

def get_stock_codes(update=False):

    """
    获取指定日期的A股代码列表

    若参数update为False，表示从数据库中读取股票列表
    若数据库中不存在股票列表的表，或者update为True，则下载指定日期date的交易股票列表


    :param update: 是否更新股票列表，默认为False
    :return: A股代码的列表
    """

    # 创建数据库引擎对象
    engine = create_mysql_engine()

    # 数据库中股票代码的表名
    table_name = 'stock_codes'

    # 数据库中不存在股票代码表，或者需要更新股票代码表
    if table_name not in sqlalchemy.inspect(engine).get_table_names() or update:

        # 查询股票数据
        stock_zh_spot_df = ak.stock_zh_a_spot_em()  ## 获取实时数据
        stock_zh_spot_data = stock_zh_spot_df[stock_zh_spot_df['名称'] != '']  ## 去除名称为空值的数据
        codes_names = stock_zh_spot_data[['代码', '名称']]
        # 将股票代码写入数据库
        codes_names.to_sql(name=table_name, con=engine, if_exists='replace', index=False, index_label=False)
        # 返回股票列表
        return codes_names['代码'].tolist()

    # 从数据库中读取股票代码列表
    else:
        # 待执行的sql语句
        sql_cmd = 'SELECT {} FROM {}'.format('代码', table_name)
        # 读取sql，返回股票列表
        return pd.read_sql(sql=sql_cmd, con=engine)['代码'].tolist()
def create_data(stock_codes, period = "daily",start_date = '19901219', end_date = '20230228',
                    adj = 'qfq'):

    """
    下载指定日期内，指定股票的日线数据

    :param stock_codes: 待下载数据的股票代码
    :param start_date: 日线开始日期1990-12-19
    :param end_date: 日线结束日期 end_date = datetime.date.today().strftime('%Y%m%d')
    :param adjustflag: 复权选项 
    :return: None
    """
    # 创建数据库引擎对象
    engine = create_mysql_engine()
    # 下载股票循环
    for index,code in enumerate(stock_codes):
        print('({}/{})正在创建{}...'.format(index + 1, len(stock_codes), code))
        data_df = ak.stock_zh_a_hist(symbol=code, period=period, start_date=start_date, end_date=end_date,
                                         adjust=adj)  ## 日度数据，后复权
        if data_df.empty:
            print('--------------empty------------------'+ code)
            continue
                # 删除重复数据
        data_df.drop_duplicates(['日期'], inplace=True)
            # 写入数据库
        table_name = '{}'.format(code)
        data_df.to_sql(name=table_name, con=engine, if_exists='replace', index=True, index_label='id')


def get_code_group(process_num, stock_codes):
    """
    获取代码分组，用于多进程计算，每个进程处理一组股票

    :param process_num: 进程数
    :param stock_codes: 待处理的股票代码
    :return: 分组后的股票代码列表，列表的每个元素为一组股票代码的列表
    """

    # 创建空的分组
    code_group = [[] for i in range(process_num)]

    # 按余数为每个分组分配股票
    for index, code in enumerate(stock_codes):
        code_group[index % process_num].append(code)

    return code_group


def multiprocessing_func(func, args):
    """
    多进程调用函数

    :param func: 函数名
    :param args: func的参数，类型为元组，第0个元素为进程数，第1个元素为股票代码列表
    :return: 包含各子进程返回对象的列表
    """

    # 用于保存各子进程返回对象的列表
    results = []

    # 创建进程池
    with multiprocessing.Pool(processes=args[0]) as pool:
        # 多进程异步计算
        for codes in get_code_group(args[0], args[1]):
            results.append(pool.apply_async(func, args=(codes, *args[2:],)))
        # 阻止后续任务提交到进程池
        pool.close()
        # 等待所有进程结束
        pool.join()

    return results


def create_data_mp(stock_codes, process_num=4,
                   period = "daily",start_date = '20010101', end_date = '20230228', adj='qfq'):
    """
    使用多进程创建指定日期内，指定股票的日线数据，计算扩展因子

    :param stock_codes: 待创建数据的股票代码
    :param process_num: 进程数
    :param from_date: 日线开始日期
    :param to_date: 日线结束日期
    :param adjustflag: 复权选项 
    :return: None
    """

    multiprocessing_func(create_data, (process_num, stock_codes, period,start_date, end_date, adj))

if __name__ == '__main__':
    stock_codes = get_stock_codes()
    create_data_mp(stock_codes)
#     print(stock_codes)

数据更新，建议定时任务设置为三点半后

import akshare as ak
import datetime
import time
import sys
import numpy as np
import pandas as pd
import multiprocessing
import sqlalchemy

# # 可用日线数量约束
g_available_days_limit = 250

# BaoStock日线数据字段
g_baostock_data_fields = '日期,开盘,收盘,最高,最低,成交量,成交额,振幅,涨跌幅,涨跌额,换手率'


def create_mysql_engine():
    """
    创建数据库引擎对象

    :return: 新创建的数据库引擎对象
    """

    # 引擎参数信息
    # 引擎参数信息
    host = '192.168.9.110'
    user = 'root'
    passwd = 'A_quant88'
    port = '3306'
    db = 'quant'

    # 创建数据库引擎对象
    mysql_engine = sqlalchemy.create_engine(
        'mysql+pymysql://{0}:{1}@{2}:{3}'.format(user, passwd, host, port),
        poolclass=sqlalchemy.pool.NullPool
    )

    # 如果不存在数据库db_quant则创建
    mysql_engine.execute("CREATE DATABASE IF NOT EXISTS {0} ".format(db))

    # 创建连接数据库db_quant的引擎对象
    db_engine = sqlalchemy.create_engine(
        'mysql+pymysql://{0}:{1}@{2}:{3}/{4}?charset=utf8'.format(user, passwd, host, port, db),
        poolclass=sqlalchemy.pool.NullPool
    )

    # 返回引擎对象
    return db_engine


def get_stock_codes(update=False):

    """
    获取指定日期的A股代码列表

    若参数update为False，表示从数据库中读取股票列表
    若数据库中不存在股票列表的表，或者update为True，则下载指定日期date的交易股票列表


    :param update: 是否更新股票列表，默认为False
    :return: A股代码的列表
    """

    # 创建数据库引擎对象
    engine = create_mysql_engine()

    # 数据库中股票代码的表名
    table_name = 'stock_codes'

    # 数据库中不存在股票代码表，或者需要更新股票代码表
    if table_name not in sqlalchemy.inspect(engine).get_table_names() or update:

        # 查询股票数据
        stock_zh_spot_df = ak.stock_zh_a_spot_em()  ## 获取实时数据
        stock_zh_spot_data = stock_zh_spot_df[stock_zh_spot_df['名称'] != '']  ## 去除名称为空值的数据
        codes_names = stock_zh_spot_data[['代码', '名称']]
        # 将股票代码写入数据库
        codes_names.to_sql(name=table_name, con=engine, if_exists='replace', index=False, index_label=False)
        # 返回股票列表
        return codes_names['代码'].tolist()

    # 从数据库中读取股票代码列表
    else:
        # 待执行的sql语句
        sql_cmd = 'SELECT {} FROM {}'.format('代码', table_name)
        # 读取sql，返回股票列表
        return pd.read_sql(sql=sql_cmd, con=engine)['代码'].tolist()


def create_data(stock_codes, period = "daily",start_date = '20010101', end_date = '20230301',
                    adj = 'qfq'):

    """
    下载指定日期内，指定股票的日线数据

    :param stock_codes: 待下载数据的股票代码
    :param start_date: 日线开始日期1990-12-19
    :param end_date: 日线结束日期 end_date = datetime.date.today().strftime('%Y%m%d')
    :param adjustflag: 复权选项 
    :return: None
    """
    # 创建数据库引擎对象
    engine = create_mysql_engine()
    # 下载股票循环
    for index,code in enumerate(stock_codes):
        print('({}/{})正在创建{}+++'.format(index + 1, len(stock_codes), code))
        data_df = ak.stock_zh_a_hist(symbol=code, period=period, start_date=start_date, end_date=end_date,
                                         adjust=adj)  ## 日度数据，后复权
        if data_df.empty:
            print('--------------empty------------------'+ code)
            continue
                # 删除重复数据
        data_df.drop_duplicates(['日期'], inplace=True)
            # 写入数据库
        table_name = '{}'.format(code)
        data_df.to_sql(name=table_name, con=engine, if_exists='replace', index=True, index_label='id')

        print('({}/{})创建完成{}...'.format(index + 1, len(stock_codes), code))


def get_code_group(process_num, stock_codes):
    """
    获取代码分组，用于多进程计算，每个进程处理一组股票

    :param process_num: 进程数
    :param stock_codes: 待处理的股票代码
    :return: 分组后的股票代码列表，列表的每个元素为一组股票代码的列表
    """

    # 创建空的分组
    code_group = [[] for i in range(process_num)]

    # 按余数为每个分组分配股票
    for index, code in enumerate(stock_codes):
        code_group[index % process_num].append(code)

    return code_group


def multiprocessing_func(func, args):
    """
    多进程调用函数

    :param func: 函数名
    :param args: func的参数，类型为元组，第0个元素为进程数，第1个元素为股票代码列表
    :return: 包含各子进程返回对象的列表
    """

    # 用于保存各子进程返回对象的列表
    results = []

    # 创建进程池
    with multiprocessing.Pool(processes=args[0]) as pool:
        # 多进程异步计算
        for codes in get_code_group(args[0], args[1]):
            results.append(pool.apply_async(func, args=(codes, *args[2:],)))

        # 阻止后续任务提交到进程池
        pool.close()

        # 等待所有进程结束
        pool.join()

    return results


def create_data_mp(stock_codes, process_num=4,
                   period = "daily",start_date = '20010101', end_date = '20230301', adj='qfq'):
    """
    使用多进程创建指定日期内，指定股票的日线数据，计算扩展因子

    :param stock_codes: 待创建数据的股票代码
    :param process_num: 进程数
    :param from_date: 日线开始日期19901219
    :param to_date: 日线结束日期datetime.date.today().strftime('%Y%m%d')
    :param adjustflag: 复权选项 
    :return: None
    """

    multiprocessing_func(create_data, (process_num, stock_codes, period,start_date, end_date, adj))




def multiprocessing_func_df(func, args):
    """
    多进程调用函数，收集返回各子进程返回的DataFrame

    :param func: 函数名
    :param args: func的参数，类型为元组，第0个元素为进程数，第1个元素为股票代码列表
    :return: 包含各子进程返回值的DataFrame
    """

    # 多进程调用函数func，获取子进程返回对象的列表
    results = multiprocessing_func(func, args)

    # 构建空DataFrame
    df = pd.DataFrame()

    # 收集各进程返回值
    for i in results:
        df = df.append(i.get())

    return df





def update_data(stock_codes, query_days=60, adjust='qfq'):
    """
    更新日线数据，计算相关因子

    :param stock_codes: 待更新数据的股票代码
    :param query_days: 在数据库中查询历史日线数据的天数，用于计算扩展因子，需要根据扩展因子设置，这里要计算60日均线，所以最小设置为60
    :param adjustflag: 复权选项 
    :return: 包含所有待处理股票的最新一日日线数据及扩展因子的DataFrame
    """

    # 创建数据库引擎对象
    engine = create_mysql_engine()

    # 创建空DataFrame，存储最新一日的数据
    latest_df = pd.DataFrame()

    # 更新数据循环
    for index, code in enumerate(stock_codes):
        print('({}/{})正在创建{}---'.format(index + 1, len(stock_codes), code))



        # 股票数据在数据库中的表名
        table_name = '{}'.format(code)

        # 判断是否存在该表，不存在则跳过
        if table_name not in sqlalchemy.inspect(engine).get_table_names():
            continue

        # 获取按时间排序的最后query_days行数据
        sql_cmd = 'SELECT * FROM {} ORDER BY 日期 DESC LIMIT {};'.format('quant.'+table_name, query_days)
        read_df = pd.read_sql(sql=sql_cmd, con=engine)

        # 如果数据少于query_days，则不更新
        if read_df.shape[0] < query_days:
            continue

        # 数据按id(date)升序排序
        read_df = read_df.sort_values(by='id', ascending=True)

        # 获取数据库中最新数据日期及id
        last_id = read_df['id'].iloc[-1]
        from_date = read_df['日期'].iloc[-1]
        print(from_date)

        # 如果数据库中已包含最新一日数据
        if from_date >= datetime.date.today().strftime('%Y-%m-%d'):

            # 将最新一日数据，添加code字段，append到latest_df中，并进行下一只股票更新
            latest_series = read_df.iloc[-1].copy()
            latest_series['code'] = code[3:]
            latest_df = latest_df.append(latest_series)
            print('{}当前已为最新数据'.format(code))
            continue

        # 计算待更新数据的开始日期
        from_date = (datetime.datetime.strptime(
            from_date, '%Y-%m-%d') + datetime.timedelta(days=1)).strftime('%Y-%m-%d')
        
        # 下载日线数据
        out_df = ak.stock_zh_a_hist(symbol=code, period="daily", start_date=(datetime.datetime.strptime(from_date,'%Y-%m-%d').strftime("%Y%m%d")),
                                    end_date='20230301',adjust=adjust)

        if out_df.empty:
            continue

        # 新添加行数
        new_rows = out_df.shape[0]

        # 获取下载字段，拼接DataFrame，用于后续计算扩展指标
        out_df = read_df[list(out_df)].append(out_df)

        # 重置索引
        out_df.reset_index(drop=True, inplace=True)


        # 取最后new_rows行
        out_df = out_df.iloc[-new_rows:]

        # 判读是否有字段缺失
        if np.any(out_df.isnull()):
            print('{}有缺失字段！！！'.format(code))

        # 更新id
        out_df['id'] = pd.Series(np.arange(last_id + 1, last_id + 1 + new_rows), index=out_df.index)

        # 将更新数据写入数据库
        out_df.to_sql(name=table_name, con=engine, if_exists='append', index=False)

        # 将更新的最后一行添加code字段，append到latest_df中
        latest_series = out_df.iloc[-1].copy()
        latest_series['code'] = code
        latest_df = latest_df.append(latest_series)

    # 返回包含最新一日股票日线数据的DataFrame
    return latest_df


def update_data_mp(stock_codes, process_num=4, query_days=60, adj='qfq'):
    """
    使用多进程更新日线数据，计算扩展因子

    :param stock_codes: 待更新数据的股票代码
    :param process_num: 进程数
    :param query_days: 在数据库中查询历史日线数据的天数，用于计算扩展因子
    :param adjustflag: 复权选项 
    :return: 包含所有待处理股票的最新日线数据的DataFrame
    """

    # 多进程更新数据，获取最新日线数据的DataFrame
    latest_df = multiprocessing_func_df(update_data, (process_num, stock_codes, query_days, adj))


    # 将所有股票最新日线数据写入数据库表latest
    if latest_df.shape[0]:
        latest_df.to_sql(name='latest', con=create_mysql_engine(), if_exists='replace', index=False)


    return latest_df


if __name__ == '__main__':
    start_time = time.time()
    stock_codes = get_stock_codes()
    update_data_mp(stock_codes)
    end_time = time.time()
    print('程序运行时间：{}s'.format(end_time - start_time))