python股票预测如何做数据预处理_用python进行数据预处理简介

最新推荐文章于 2023-05-31 18:51:31 发布

weixin_39676930

最新推荐文章于 2023-05-31 18:51:31 发布

阅读量1.5k

点赞数

文章标签： python股票预测如何做数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39676930/article/details/111441717

版权

本文介绍了Python在股票预测数据预处理中的常见步骤，包括数据加载、缺失值处理、偏离值处理、统计分析和特征处理。通过pandas库进行数据加载，使用特殊值填充缺失数据，对偏离值进行检查和处理。此外，还涉及数据转换、标准化和归一化的技术，以优化数据集，为后续的股票预测分析做好准备。

摘要由CSDN通过智能技术生成

常见的数据挖掘的手段数据加载与粗略查看

处理丢失的数据

处理偏离值

数据统计

特征值的合并、连接

数据转换、标准化、归一化

主要介绍

2.1数据加载与粗略查看

2.1.1数据加载

一般训练与测试的数据都提供csv格式，使用pandas库读取：

1. df_train = pd.read_csv('../train.csv')

此时读取的df_train为DataFrame格式。

同时pandas还可以读取各种不同格式的数据，如存储比较快的hdf格式、excel等

但有时数据不是简单的csv，它按照文本保存，如“ID||texttexttexttext”这样的一条数据需要将中间的“||”当作分隔符，读取方式如下：

1.train = pd.read_csv('../input/training_text', sep="\|\|", engine='python', header=None, skiprows=1, names=["ID","Text"])

更多参数应该查阅pandas文档。

2.1.2数据粗略查看

在pandas读进来数据一个train后，train的格式为DataFrame，调用下面的几个方法就可以大致了解我们得到的数据是什么，有什么特征值，特征值的数据类型是什么，如果是数值那么最大最小值是什么等：

train.head(5) #显示前5行数据

train.tail(5) #显示后5行

train.columns #查看列名

train.shape #查看数据集行列分布，几行几列

train.describe() #查看数据的大体情况

如train.describe()：

2.2处理丢失的数据

处理这些数据以前不建议把train与test 连接起来，因为这样容易造成test里数据的丢失，个人认为较好的方式为：

full_data = [train, test]

将两个数据集合成为list，然后清洗时对其for循环即可，如：

for dataset in full_data:

dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1

下面只介绍对测试集train 的操作。

找到丢失的位置

输出每个列丢失值也即值为NaN的数据和，并从多到少排序：

total = train.isnull().sum().sort_values(ascending=False)

print(total)

Cabin 687

Age 177

Embarked 2

Fare 0

Ticket 0

Parch 0

SibSp 0

Sex 0

Name 0

Pclass 0

Survived 0

PassengerId 0

也可以输出百分比：

percent =(train.isnull().sum()/train.isnull().count()).sort_val

最低0.47元/天解锁文章

weixin_39676930

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
python股票预测如何做数据预处理_用python进行数据预处理简介

常见的数据挖掘的手段数据加载与粗略查看处理丢失的数据处理偏离值数据统计特征值的合并、连接数据转换、标准化、归一化主要介绍2.1数据加载与粗略查看2.1.1数据加载一般训练与测试的数据都提供csv格式，使用pandas库读取：1. df_train = pd.read_csv('../train.csv')此时读取的df_train为DataFrame格式。同时pandas还可以读取各种不同格式的数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。