Pandas画图、统计、累计、csv文件的读取,缺失值的处理

Pandas画图:

api手册如下:

在这里插入图片描述
在这里插入图片描述

具体演示:

准备数据:
  • data = pd.read_csv("./data/stock_day.csv")
  • data = data.drop([“ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”], axis=1)
    在这里插入图片描述
绘制散点图:

在这里插入图片描述

  • 通过上图我们发现上面这两个字段貌似没有什么内在的关系。
    在这里插入图片描述
  • 通过画图我们发现上面这两个字段貌似你在增长的时候我也在增长。
    在这里插入图片描述

pandas的IO操作

  • 我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5。
    在这里插入图片描述

csv文件的读取于储存:

在这里插入图片描述
读取之前的股票数据:

  • data = pd.read_csv("./data/stock_day.csv")
    在这里插入图片描述
  • data = data.drop([“ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”], axis=1)
    在这里插入图片描述
    在这里插入图片描述
  • 也可以在读取数据的时候指定读取的字段
  • data = pd.read_csv("./data/stock_day.csv", usecols=[“open”, “high”, “close”])
    在这里插入图片描述
也可以在读取文件的时候设置列索引:
  • names=[“open”, “high”, “close”, “low”, “volume”, “price_change”, “p_change”, “ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”, “turnover”]
    在这里插入图片描述

将数据写入到csv文件中

在这里插入图片描述

  • 选取前10行数据保存,便于观察数据:
    在这里插入图片描述
  • data[:10].to_csv("./data/test.csv", columns=[“open”])
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
读取、查看结果:

在这里插入图片描述

  • 会发现将索引存入到文件当中,变成单独的一列数据。如果需要删除,可以指定index参数,删除原来的文件,重新保存一次。
    在这里插入图片描述
    在这里插入图片描述
指定追加方式:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 又存进了一个列名,所以当以追加方式添加数据的时候,一定要去掉列名columns,指定header=False
    在这里插入图片描述
    在这里插入图片描述

hdf5文件的读取与存储:

在这里插入图片描述

文件的读取:

在这里插入图片描述

需要安装tables模块避免不能读取HDF5文件:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 将读取到的day_high数据再写入到test.h5文件中:
    在这里插入图片描述
    在这里插入图片描述
  • 注意:此时再来读取的时候必须要指定key了,因为现在这个h5文件中有两份数据。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

json文件的读取与存储:

在这里插入图片描述

数据介绍:

在这里插入图片描述
在这里插入图片描述

读取数据:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

写入数据:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 默认是lines=False:
    在这里插入图片描述
    在这里插入图片描述
总结:

在这里插入图片描述

处理np.nan类型的缺失值:

在这里插入图片描述

如何处理nan:

在这里插入图片描述

缺失值处理案例:
  • 电影数据文件获取:
    在这里插入图片描述
    在这里插入图片描述
  • 判断缺失值是否存在(也就是判断是否存在nan类型的缺失值):
    在这里插入图片描述
    在这里插入图片描述
  • 或是:
    在这里插入图片描述
    在这里插入图片描述
  • 也可以:
    在这里插入图片描述
  • 说明:Revenue和Metascore这两个字段是有缺失值的。
    在这里插入图片描述
    在这里插入图片描述
缺失值处理方法1:删除含有缺失值的样本。

在这里插入图片描述

  • 注意:dropna()方法不会修改源数据,需要接收返回值。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 提示:添加inplace=True的话就是在原数据集上进行修改。
缺失值处理方法2:使用这一列的均值进行填充。

在这里插入图片描述

  • 再来查看一下:
    在这里插入图片描述
处理其他标记的缺失值:
  • 不是缺失值nan,有默认标记的。
    在这里插入图片描述
  • 数据集介绍:威斯康星州乳腺癌数据库(1991年1月8日)
    https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • 可以使用浏览器上的在线翻译功能进行翻译一下:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • path = “https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data”
  • names = [“Sample code number”, “Clump Thickness”, “Uniformity of Cell Size”, “Uniformity of Cell Shape”, “Marginal Adhesion”, “Single Epithelial Cell Size”, “Bare Nuclei”, “Bland Chromatin”, “Normal Nucleoli”, “Mitoses”, “Class”]
    在这里插入图片描述
    在这里插入图片描述
处理思路分析:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

具体演示:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

总结:

在这里插入图片描述
在这里插入图片描述

  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值