Datawhale之动手学数据分析第一章

最新推荐文章于 2021-08-17 22:13:11 发布

Noyade

最新推荐文章于 2021-08-17 22:13:11 发布

阅读量225

点赞数 1

本文链接：https://blog.csdn.net/weixin_43314076/article/details/108107334

版权

Datawhale之动手学数据分析第一章

0.载入数据

Step1:导入numpy&pandas库

Step2:载入数据

方式相对路径：必须在同一文件下；绝对路径：在终端内可知
语句 number代表逐步读取的数量
```
pd.read_csv('filename.csv',chunksize=number)
```
意为将名为filename的数据集里的表头按顺序改为No.x，并以No.1为索引。
```
pd.read_csv('filename.csv',names=['No.1','No.2','No.3'],index_col='No.1',header=0)
```

1.初步观察

1.1查看数据的基本信息

df.info()

1.2观察DataFrame对象的前n行/后n行

df.head(n)
df.tail()

1.3判断数据是否为空，为空的地方返回True，其余地方返回False

df.isnull().head()

1.4保存数据

df.to_csv('filename.csv')

2.pandas基础

Series 是带标签的一维数组，可存储整数、浮点数、字符串、Python 对象等类型的数据。轴标签统称为索引。

Series的字符串表现形式为:索引在左边，值在右边。如果我们没有为数据指定索引，于是会自动创建一个0到N-1(N为数据的⻓度)的整数型索引。
pd.Series(data,index=['one','two','three'])
DataFrame 是由多种类型的列构成的二维标签数据结构，类似于 Excel 、SQL 表，或 Series 对象构成的字典。
pd.DataFrame(data, index=['a', 'b', 'c'], columns=['one', 'two'])

2.1查看DataFrame数据的每列的项

df.columns

2.2查看特定一列的所有项

方法一
```
df['name'].head()
```
方法二
```
df.name.head()
```

2.3删除

DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)

参数说明：
labels 就是要删除的行列的名字，用列表给定
axis 默认为0，指删除行，因此删除columns时要指定axis=1
index 直接指定要删除的行
columns 直接指定要删除的列
inplace=False，默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe
inplace=True，则会直接在原数据上进行删除操作，删除后无法返回

因此，删除行列有两种方式：
1）labels=None,axis=0 的组合
2）index或columns直接指定要删除的行或列
#删除列名为a的列，如果inplace不写默认为false
test_1.drop('a', axis=1, inplace=True)
#删除列名为a的列
del test_1['a']
 
#删除第0，2，4列 ，axis=0表示行，1表示列
test_1.drop(df.columns[[0, 2, 4]], axis=1)
 
#隐藏某列，如'Age','Ticket'，只观察其他几个列元素
test_1.drop(['Age','Ticket'],axis=1).head(n)
 
#这样写不可以，显示出来的是全部
test_1.drop(['Age','Ticket'],axis=1)

2.4筛选

简单使用交集与并集

midage = df[(df["Age"]>10)&(df["Age"]<50)]

DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)

作用：设置单索引和复合索引。
参数说明：
keys：列标签或列标签/数组列表，需要设置为索引的列
drop：默认为True，删除用作新索引的列
append：是否将列附加到现有索引，默认为False
inplace：输入布尔值，表示当前操作是否对原数据生效，默认为False
注：append添加新索引，drop为False，inplace为True时，索引将会还原为列

loc函数：通过行索引 "Index" 中的具体值来取行数据（如取"Index"为"A"的行） df.loc[ [行号/名], [列号/名] ]
iloc函数：通过行号来取行数据（如取第二行的数据） df.iloc[ [行号], [列号] ]
# 第n行的"a"和"b"的数据显示出来
df.loc[[n],['a','b']]
# 使用iloc方法将数据中第a,b,c行的"Age"，"Name"和"Sex"的数据显示出来
df.iloc[[a,b,c],[Age,Name,Sex]]

3.探索性数据分析

frame = pd.DataFrame(np.arange(8).reshape((2, 4)),index=['2', '1'],columns=['d', 'a', 'b', 'c'])

pd.DataFrame(): 创建一个DataFrame对象
np.arange(8).reshape((2, 4)): 生成一个二维数组(2*4),第一列:0，1，2，3 第二列:4，5，6，7
index=['2, 1]: DataFrame 对象的索引列
columns=['d', 'a', 'b', 'c']: DataFrame 对象的索引行

# 让行索引升序排序
frame.sort_index()
# 让列索引升序排序
frame.sort_index(axis=1)
# 让列索引降序排序
frame.sort_index(axis=1, ascending=False)

进行算术计算
#将frame_a和frame_b进行相加
frame1_a + frame1_b

两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值 NaN。

# 调用 describe 函数，观察frame1的数据基本信息
frame1.describe()
text['name'].describe()

count : 样本数据大小
mean : 样本数据的平均值
std : 样本数据的标准差
min : 样本数据的最小值
25% : 样本数据25%的时候的值 50% : 样本数据50%的时候的值 75% : 样本数据75%的时候的值
max : 样本数据的最大值

Noyade

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale之动手学数据分析第一章

Datawhale之动手学数据分析第一章0.载入数据Step1:导入numpy&pandas库Step2:载入数据方式相对路径：必须在同一文件下；绝对路径：在终端内可知语句 number代表逐步读取的数量 pd.read_csv('filename.csv',chunksize=number) 意为将名为filename的数据集里的表头按顺序改为No.x，并以No.1为索引。 pd.read_csv('filename.csv',nam...
复制链接

扫一扫