第一次学习记录
先来卖惨!!!第一次用python,第一次用CSDN,第一次使用Github(之前都是下载代码后读代码,不管理),第一次数据分析实践,同时也是第一次收获!
接触了搞数据分析的大神才发现什么水利水电工程,流体力学、地球物理流体动力学都是一堆小儿科,敲代码它不香吗????????为什么要对着一堆数学公式推来推去呢(真香,虽然还是感觉推公式更容易一点)
第一节数据载入及初步观察
- 导入numpy和pandas库(小声逼逼,我除了这两个库还知道matplotlib,毕竟周围有大神整天挂在嘴边:人生苦短我用python)import numpy as np
import pandas as pd - pd.read_csv函数的使用(可以使用绝对路径,也可以使用相对路径df = pd.read_csv(‘train.csv’)
df.head(3))
df = pd.read_csv(‘C:\Users\ff\Desktop\动手学数据分析-组队学习版\第一单元项目集合\train.csv’)
df.head(3) - chunksize=n 属性(可以称为属性吗?)
每n行为一个数据模块,逐块读取; - 改变“表头”属性?names=[‘乘客ID’,‘是否幸存’,‘仓位等级’,‘姓名’,‘性别’,‘年龄’,‘兄弟姐妹个数’,‘父母子女个数’,‘船票信息’,‘票价’,‘客舱’,‘登船港口’]
- df.info() 查看数据基本信息的函数
- .head(n)为查看前n行的数据;.tail(m)为查看后m行的数据;
- df.isnull().head(m) 查看前m行的数据中是否为空,是的话返回True,否则返回false
- .to_csv(‘new_name’) 函数,将加载与改变的数据重新储存在一个新命名的文件中。
第二节pandas基础
- pandas中有两个数据类型DateFrame和Series
- 查看DataFrame数据的每列的项 df.columns??行呢?
- df.Cabin.head(3) 查看"cabin"这列的前三行项
- del test_1[‘a’] 删除函数del,删除test_1文件中的a列
- df.drop([‘PassengerId’,‘Name’,‘Age’,‘Ticket’],axis=1).head(3) 列元素隐藏
- df[df[“Age”]<10].head(3) 以"Age"为筛选条件,选取前三行中年龄在10岁以下的乘客信息
- midage = df[(df[“Age”]>10)& (df[“Age”]<50)];midage.head(3)
让变量midage为以"Age"为筛选条件筛选“Age”在10与50之间的前三行数据 - 使用loc方法将midage的数据中第100,105,108的"Pclass","Name"和"Sex"的数据显示出来 midage.loc[[100,105,108],[‘Pclass’,‘Name’,‘Sex’]]
第三节探索性数据分析
- 让行索引升序排序 frame.sort_index(); # 让列索引升序排序 frame.sort_index(axis=1); # 让列索引降序排序 frame.sort_index(axis=1, ascending=False); # 让任选两列数据同时降序排序 frame.sort_values(by=[‘a’, ‘c’])
- max(text[‘兄弟姐妹个数’] + text[‘父母子女个数’]); 通过泰坦尼克号数据如何计算出在船上最大的家族有多少人
- 学会使用Pandas describe()函数查看数据基本统计信息 .describe()