Datawhale-动手学数据分析-1月-记录
第一天打卡
1、pd.read_csv()与pd.read_table()
两者都是用来读取以逗号为分隔符的文件,后者将每一行看做一个维度的数据,以换行符为界,读取结果是一个m×1的数据块;前者则是以每一个逗号来分割数据,每一行中有若干个数据,读取结果是一个m×n的数据块。
2、p1.columns.tolist()
通过该语句获取表格的列名,并且通过下方最后两行代码得到纯数据并存为一个np数组。
p1 = pd.read_csv(r"train.csv")
head = p1.columns.tolist()
print(head)
data1 = p1[head]
data1 = np.array(data1)
3、pd.read_csv()里的参数
可以在其中添加names和head=0来改变表头,也可以通过index_col来改变索引数据
chineseHeader = ['乘客ID', '是否幸存', '仓位等级', '姓名', '性别', '年龄', '兄弟姐妹个数', '父母子女个数', '船票信息', '票价', '客舱', '登船港口']
p3 = pd.read_csv(r"train.csv", names=chineseHeader,index_col='乘客ID', header=0)
4、p1.head()和p1.tail()
前者是返回pandas数据中的前n行,默认为5,后者是返回pandas数据中的最后n行,默认也为5。
第二天打卡
1、p1.drop():隐藏某几列数据不显示
test1.drop(['PassengerId', 'Name','Age'], axis=1)
2、可以直接筛选数据,并且使用交、并、补集概念
midage = p1[(p1['Age']<50) & (p1['Age']>10)]
3、使用loc()选取第几行的第几列数据进行展示,第一个参数是行数,可以展示多行;用列表表示,第二个参数是列名,同理。
midage.loc[[100],['Pclass','Sex']]
4、使用iloc()选取第几行的第几列数据进行展示,第一个参数是行名,可以展示多行;用列表表示,第二个参数是列的位置,而非列名。
midage.iloc[[100, 99],[3,4]]