导入numpy和pandas
import numpy as np import pandas as pd
任务二:载入数据 (1) 使用相对路径载入数据 (2) 使用绝对路径载入数据
df = pd.read_csv('./train.csv') df = pd.read_csv('D:\freshstudentD\AI\pandas入门\train.csv')
每1000行为一个数据模块,逐块读取
chunker = pd.read_csv('./train.csv',chunksize=1000) for i in chunker: print(i)
将表头改成中文,索引改为乘客ID
df = pd.read_csv('train.csv',names = ['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col = '乘客ID',header = 0) df
查看数据的基本信息
df.info()
观察表格前10行的数据和后15行的数据
df.head(10) df.tail(15)
判断数据是否为空,为空的地方返回True,其余地方返回False
df.isnull().head(5)
将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
df.to_csv('train_chinese.csv')
查看DataFrame数据的每列的名称
df.columns
查看"Cabin"这列的所有值
df['Cabin'].head(3)
加载文件"test_1.csv",然后对比"train.csv"
test1 = pd.read_csv('test_1.csv')
del test1['a'] test.head(3)
将['PassengerId','Name','Age','Ticket']这几个列元素隐藏,只观察其他几个列元素
df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)
以"Age"为筛选条件,显示年龄在10岁以下的乘客信息。
df[df['Age']<10]
以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
midage = df[(df['Age']>10)&(df['Age']<50)] midage.head(3)
将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来
midage.loc[[100],['Pclass','Sex']]
使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
midage.loc[[100,105,108],['Pclass','Name','Sex']]
使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出
midage.iloc[[100,105,108],[2,3,4]]
# 让行索引升序排序 frame.sort_index() # 让列索引升序排序 frame.sort_index(axis=1) # 让列索引降序排序 frame.sort_index(axis=1,ascending=False) # 让任选两列数据同时降序排序 frame.sort_values(by=['a','c'],ascending=False)
对泰坦尼克号数据(trian.csv)按票价和年龄两列进行综合排序(降序排列)
text.sort_values(by=['票价','年龄']ascending=False)
#将frame_a和frame_b进行相加 frame1_a + frame1_b
通过泰坦尼克号数据如何计算出在船上最大的家族有多少人
max(text['兄弟姐妹个数'] + text['父母子女个数'])
分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据
text['票价'].describe()