股票数据预处理

数据导入:

提示:注意是csv,还是xlsx文件,本文导入中证100指数

import pandas as pd

data = pd.read_excel("./data/CSI100.xls",dtype={"股票代码_Stkcd":str})

注意设置代码格式为str类型:

dtype={"股票代码_Stkcd":str}

在这里插入图片描述


更改指标名称:

`提示:使用split

cols = [i.split("_")[1] for i in data.columns]
data.columns = cols

在这里插入图片描述


筛选数据:

提示:将所有的行业名称是非空值的

例如:notnull

data = data[data['Csrciccd1'].notnull()]
data = data[data["Date"]>="2005-01-01"]

统计每个指标的个数:

提示:这里统计学习行业的总量

例如:

all_df.Csrciccd1.value_counts()

在这里插入图片描述

缺失值填充:

提示:这里采用均值填充

all_df = all_df.fillna(all_df.mean())

统一日期

使用字典的调用方式

all_df["month"] = all_df["Date"].apply(lambda x: str(x).split("-")[0]+"-"+str(x).split("-")[1])

m_d = dict(all_df[["month", "Date"]].values)
all_df["Date"] = all_df["month"].apply(lambda x: m_d[x])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python量化投资、代码解析与论文精读

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值