1.4 知道你的数据叫什么
1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰
import numpy as np
import pandas as pd
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
example_1 = pd.Series(sdata)
example_1`
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
'year': [2000, 2001, 2002, 2001, 2002, 2003],'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
example_2 = pd.DataFrame(data)
example_2在这里插入代码片
小结:dateframe和series
区别:
series,只是一个一维数据结构,它由index和value组成。
dataframe,是一个二维结构,除了拥有index和value之外,还拥有column。
联系:
dataframe由多个series组成,无论是行还是列,单独拆分出来都是一个series。
1.4.2 任务二:根据上节课的方法载入"train.csv"文件
df= pd.read_csv("train_chinese.csv")
df
1.4.3 任务三:查看DataFrame数据的每列的名称
1.4.4任务四:查看"Cabin"这列的所有值[有多种方法]
小结:
data['columns'] #columns即你需要的字段名称即可
#注意这列的columns不能是index的名称
#如果要打印index的话就data.index
data.columns #与上面的一样
1.4.5 任务五:加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除
test=pd.read_csv("test.csv")
test
test_1 = pd.read_csv('test_1.csv')
test_1.head在这里插入代码片
方法一:
del test_1['a']
test_1.head
方法二:
df=test_1
df
df1=df.drop(labels='a',axis=1) # axis=1 表示按列删除,删除gender列
print(df1)
1.4.6 任务六: 将[‘PassengerId’,‘Name’,‘Age’,‘Ticket’]这几个列元素隐藏,只观察其他几个列元素
df.drop(['PassengerId','Name','Age','Ticket'],axis=1)
1.5 筛选的逻辑
1.5.1 任务一: 我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。
df[df["Age"]<10]
1.5.2 任务二: 以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage
1.5.3 任务三:将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来
midage = midage.reset_index(drop=True)
midage
midage.loc[[100],['Pclass','Sex']]
1.5.4 任务四:使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
midage.loc[[100,105,108],['Pclass','Name','Sex']]
总结:本操作中主要涉及到了
1、两个数据类型DateFrame和Series的认识,前者是数组 后者是数列,也就是二维和一维的差别;
2、如何查看一张表的数据、以及查看表中某一行的数据
3、查看指定行的数据 查看指定列的数据有两种方法loc和 https://blog.csdn.net/W_weiying/article/details/81411257
4、删除某行或者是某一列的数据。
添加链接描述