第一次学习:数据加载及探索性数据分析

第一次学习记录

先来卖惨!!!第一次用python,第一次用CSDN,第一次使用Github(之前都是下载代码后读代码,不管理),第一次数据分析实践,同时也是第一次收获!
接触了搞数据分析的大神才发现什么水利水电工程,流体力学、地球物理流体动力学都是一堆小儿科,敲代码它不香吗????????为什么要对着一堆数学公式推来推去呢(真香,虽然还是感觉推公式更容易一点)

第一节数据载入及初步观察

  1. 导入numpy和pandas库(小声逼逼,我除了这两个库还知道matplotlib,毕竟周围有大神整天挂在嘴边:人生苦短我用python)import numpy as np
    import pandas as pd
  2. pd.read_csv函数的使用(可以使用绝对路径,也可以使用相对路径df = pd.read_csv(‘train.csv’)
    df.head(3))
    df = pd.read_csv(‘C:\Users\ff\Desktop\动手学数据分析-组队学习版\第一单元项目集合\train.csv’)
    df.head(3)
  3. chunksize=n 属性(可以称为属性吗?)
    每n行为一个数据模块,逐块读取;
  4. 改变“表头”属性?names=[‘乘客ID’,‘是否幸存’,‘仓位等级’,‘姓名’,‘性别’,‘年龄’,‘兄弟姐妹个数’,‘父母子女个数’,‘船票信息’,‘票价’,‘客舱’,‘登船港口’]
  5. df.info() 查看数据基本信息的函数
  6. .head(n)为查看前n行的数据;.tail(m)为查看后m行的数据;
  7. df.isnull().head(m) 查看前m行的数据中是否为空,是的话返回True,否则返回false
  8. .to_csv(‘new_name’) 函数,将加载与改变的数据重新储存在一个新命名的文件中。

第二节pandas基础

  1. pandas中有两个数据类型DateFrameSeries
  2. 查看DataFrame数据的每列的项 df.columns??行呢?
  3. df.Cabin.head(3) 查看"cabin"这列的前三行项
  4. del test_1[‘a’] 删除函数del,删除test_1文件中的a列
  5. df.drop([‘PassengerId’,‘Name’,‘Age’,‘Ticket’],axis=1).head(3) 列元素隐藏
  6. df[df[“Age”]<10].head(3) 以"Age"为筛选条件,选取前三行中年龄在10岁以下的乘客信息
  7. midage = df[(df[“Age”]>10)& (df[“Age”]<50)];midage.head(3)
    让变量midage为以"Age"为筛选条件筛选“Age”在10与50之间的前三行数据
  8. 使用loc方法将midage的数据中第100,105,108的"Pclass","Name"和"Sex"的数据显示出来 midage.loc[[100,105,108],[‘Pclass’,‘Name’,‘Sex’]]

第三节探索性数据分析

  1. 让行索引升序排序 frame.sort_index(); # 让列索引升序排序 frame.sort_index(axis=1); # 让列索引降序排序 frame.sort_index(axis=1, ascending=False); # 让任选两列数据同时降序排序 frame.sort_values(by=[‘a’, ‘c’])
  2. max(text[‘兄弟姐妹个数’] + text[‘父母子女个数’]); 通过泰坦尼克号数据如何计算出在船上最大的家族有多少人
  3. 学会使用Pandas describe()函数查看数据基本统计信息 .describe()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值