机器学习（二）：pandas

刘大炮o0

于 2022-11-17 19:12:39 发布

阅读量1.3k

点赞数

分类专栏：机器学习文章标签： pandas python

本文链接：https://blog.csdn.net/l1291553136/article/details/127898052

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、pandas简介

增强可读性
在这里插入图片描述

二、pandas数据结构

1.三种数据结构

series（一维数据结构）、DataFrame（二维表格型结构）、multiIndex（三维数据结构）

2.series 的创建

导入pandas包： import pandas as pd
创建series： pd.Series(data=None, index=None, dtype=None)
index表示传入的索引编号，若无则为自动从0开始编号
运用字典创建series： pd.Series({‘属性’：值，‘属性’：值}) 字典类型需要大括号

series 的属性：
数据名.index： 可以获取该数据名的数据
数据名.values：

也可以直接使用数据名.[下标]来搜索某一个数据

3.dataFrame的创建

导入pandas包： import pandas as pd
创建series： pd.DataFrame(data=None, index=None, columns=None) index表示行标签，columns表示列标签

dataFrame的属性：
.shape: 查看行列
.index: 查看行索引列表
.colunms: 查看列索引列表
.values: 查看数组值
.T: 查看数组转置

hand(数字)： 获取前几行的内容（默认前5行）
tail（数字）： 获取后几行的内容

重设索引：
data.reset_index() 表示重新新建一排索引
data.reset_index(drop=True) 表示重置索引，删除了之前的行索引

4.multiindex和Panel

创建multiindex： pd.MultiIndex.from_arrays()

三、pandas基本操作

3.1 读取文件

读取文件： pd.read_csv(“D:\BaiduNetdiskDownload/day03资料/2.code/data/stock_day.csv”)
删除文件： 数据名.drop（”需要删除的行列内容“，axis= 0/1（行/列））

3.2 索引操作

Numpy当中我们已经讲过使用索引选取序列和切片选择，pandas也支持类似的操作，也可以直接使用列名、行名称，甚至组合使用。
直接使用行列索引名字（先列后行）：数据名[‘列数据’][‘行数据’]

使用先行后列：
通过索引值 数据名.loc[“行数据”：“到另一个行数据”，“列数据”：“到另一个列数据”]
通过索引下标： data.iloc[:3, :5]

例如：①data.loc[data.index[0:5],[“open”,“close”]] 取得下标为0到4的数据，从open和close的列数据
②data.iloc[0:4, data.columns.get_indexer([‘open’, ‘close’, ‘high’, ‘low’])]