动手学习数据分析Task1

一、数据载入及初步观察

  • 载入文件:data=pd.read_csv(相对路径)
  • 如果相对路径出现报错可以先用os.getcwd()查看工作目录,os.path.abspath(‘文件名.csv’)可以查看文件所在的绝对路径
  • pd.read_csv(‘train_chinese.csv’)保存一个新表格,但是表格最前面会多出一列unname0
  • pd.read_csv()和pd.read_table():后一个函数里的sep参数默认是空格,所以加载出来不是视觉上的表格
  • pd.read_csv()有很多参数:
    1.chunksize参数可以选择逐块读取表格,返回的是Text文本,
    chunker = pd.read_csv(“train.csv”,chunksize=500)
    for i in chunker:
    print(i)
    可以逐行打印出来
    2.names=[’’,’’]可以改列名 **补充:改列名的另一个方法data.columns=[’’,’’]
    3.header可以选择用csv表格的哪一行作列名,需要再去查查的地方:0,1,None
  • 对数据进行整体观察:data.info()提供信息:有无缺省值,数据类型,内存,行列数,表格类型等等;data.dtypes();data.describe()最大最小平均值等;data.shape();dat.ndim()维数;data.index()查看行名;data.columns()查看列名;data.values()查看表格所有值,因为表格是dataframe格式,所以返回的是二维数组array;data.head(想显示的前多少行数);data.tail(想显示的尾部多少行数);data.isna()返回是否是缺省值。

二、Pandas基础探索

1.数据类型Series和Dataframe

维度不同
pd.Series(data);pd.DataFrame(data)

2.对dataframe的系列操作:

  • 查看列名:data.columns/data.columns.tolist()
  • 查看指定列(Cabin作为列名)的所有值:data[‘Cabin’]/data.Cabin/data.loc[:,‘Cabin’]这样返回的是Series;data[[‘Cabin’]]这样返回的是dataframe;loc函数可以用来查看指定行列的内容
  • 删除列:del data[‘a’]/data1.drop(‘Unnamed: 0’,axis=1)参数axis选择了行/列方向中的列;删除多列data.drop([‘PassengerId’,‘Name’,‘Age’,‘Ticket’],axis=1);如果想要完全的删除数据结构,使用inplace=True,因为使用inplace就将原数据覆盖了;
  • 筛选数据:
  • df[df[“Age”]<10]年龄列中小于10岁的
  • midage = df[(df[“Age”]>10)& (df[“Age”]<50)]两个条件一起筛选,别忘了两个条件都需要用括号括起来!!
  • midage = midage.reset_index(drop=True)此函数是在给index也就是所谓的行进行绝对顺序的排序0,1,2,…
  • midage.loc[[100],[‘Pclass’,‘Sex’]],iloc需要行列都是绝对位置

三、探索性数据分析

对数据进行排序

  • frame.sort_values(by=‘c’, ascending=True)根据C列中的数据值对C列进行升序排列,参数ascending进行升序和降序的控制;如果by=[‘a’, ‘c’]选择两列的话,主要根据a列进行控制。

  • frame.sort_index(axis=1)让列索引升序排序,axis控制轴方向

两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值