pandas基础课程-实操（了解字段含义以及初步观察数据)

最新推荐文章于 2023-07-24 20:57:48 发布

拉格哩个朗日

最新推荐文章于 2023-07-24 20:57:48 发布

阅读量242

点赞数

文章标签： python 数据挖掘数据分析

本文链接：https://blog.csdn.net/hxjjkknknkjnk/article/details/124942377

版权

1.4 知道你的数据叫什么

1.4.1 任务一：pandas中有两个数据类型DateFrame和Series，通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰

import numpy as np
import pandas as pd
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
example_1`

在这里插入图片描述

data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
example_2 = pd.DataFrame(data)
example_2在这里插入代码片

在这里插入图片描述
小结：dateframe和series
区别：
series，只是一个一维数据结构，它由index和value组成。
dataframe，是一个二维结构，除了拥有index和value之外，还拥有column。
联系：
dataframe由多个series组成，无论是行还是列，单独拆分出来都是一个series。

1.4.2 任务二：根据上节课的方法载入"train.csv"文件

df= pd.read_csv("train_chinese.csv")
df

在这里插入图片描述

1.4.3 任务三：查看DataFrame数据的每列的名称

在这里插入图片描述

1.4.4任务四：查看"Cabin"这列的所有值[有多种方法]

在这里插入图片描述

小结：

data['columns']  #columns即你需要的字段名称即可
#注意这列的columns不能是index的名称
#如果要打印index的话就data.index
data.columns  #与上面的一样

1.4.5 任务五：加载文件"test_1.csv"，然后对比"train.csv"，看看有哪些多出的列，然后将多出的列删除

test=pd.read_csv("test.csv")
test

在这里插入图片描述

test_1 = pd.read_csv('test_1.csv')
test_1.head在这里插入代码片

在这里插入图片描述
方法一：

del test_1['a']
test_1.head

在这里插入图片描述
方法二：

df=test_1
df

在这里插入图片描述

df1=df.drop(labels='a',axis=1)  # axis=1 表示按列删除，删除gender列
print(df1)

在这里插入图片描述

1.4.6 任务六：将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏，只观察其他几个列元素

df.drop(['PassengerId','Name','Age','Ticket'],axis=1)

在这里插入图片描述

1.5 筛选的逻辑

1.5.1 任务一：我们以"Age"为筛选条件，显示年龄在10岁以下的乘客信息。

df[df["Age"]<10]

在这里插入图片描述

1.5.2 任务二：以"Age"为条件，将年龄在10岁以上和50岁以下的乘客信息显示出来，并将这个数据命名为midage

midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage

在这里插入图片描述

1.5.3 任务三：将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来

midage = midage.reset_index(drop=True)
midage

在这里插入图片描述

midage.loc[[100],['Pclass','Sex']]

在这里插入图片描述

1.5.4 任务四：使用loc方法将midage的数据中第100，105，108行的"Pclass"，"Name"和"Sex"的数据显示出来

midage.loc[[100,105,108],['Pclass','Name','Sex']]

在这里插入图片描述
总结：本操作中主要涉及到了
1、两个数据类型DateFrame和Series的认识，前者是数组后者是数列，也就是二维和一维的差别；
2、如何查看一张表的数据、以及查看表中某一行的数据
3、查看指定行的数据查看指定列的数据有两种方法loc和 https://blog.csdn.net/W_weiying/article/details/81411257
4、删除某行或者是某一列的数据。
添加链接描述