第一单元学习笔记

1.1数据载入与观察

1.1.1导入numpy和pandas

导入成功

1.1.2载入数据

注意事项:1若提示文件不存在,则应该把python文件保存到csv文件对应的根目录下。

                  2输出前要加上print

1.1.3.逐块读取

使用pandas读取文件时,常常会遇到大型文件,而有时候我们只想要文件的一小部

分。

读取前n行,语法(df=pd.read_csv('trains.csv',nrows=100)

每次按n行读取,语法(chunker=pd.read_csv('trains.csv',nrows=100,chunksize=10)

1.1.4.修改数据名称 直接使用names,按照表格顺序逐个修改

数据观察

观察点:行,列,数据大小,格式

判断数据是否为空,使用df.isnull.head(),其中head()为判断的行数

1.1.5保存数据

df.to_csv('trains.csv')

第二节 pandas基础

pandas有两种数据类型,分别是Series和DataFrames,Series类似于一一对应的关系,DataFrames类似于表格之间的对应关系

上节课所写入的trains数据实际就是DataFrames类型的。

1.2.3查找DataFrames数据每列的名称(即上节课中提到的trains)

df.colums

1.2.4查找某列的所有值:文件名.列名称

删除表格中多余的列 del+文件名+要删除的列名称

隐藏列元素,用drop([列元素名称] axis=1),其中axis=1的意思是数组横向变化,体现在列的增加或减少

注:隐藏功能不是默认保存结果的,需要赋值

1.2.5筛选逻辑

此项目中直接列出需要筛选的数据的条件即可

reset_index函数:给一列重新编写序号

iloc和loc的异同:两者均为提取列表中的特定几行的数据,不同的是loc函数需要把列的名称写出来,而iloc只需要知道提取列的编号

1.3探索性数据分析

1.3.1利用Pandas对示例数据进行排序

一般按照列进行排序

sort_values(by'' ascending)by指向要排列的特定的列,ascending为排列方式,true为正序,false为倒序。默认为true

按行升序sort_index

按列升序sort_index(axis=1)

按列降序sort_index(axis=1,ascending=false)

针对于泰坦尼克号乘客幸存情况的分析:

票价越高,幸存几率越大

舱位等级越高,幸存几率越大

1.3.2通过泰坦尼克号计算出在船上的最大家族有多少人:其方法是用到了DataFrame数据类型的相加,使用时要注意算术运算与数据对齐,只有相同的数据类型才能相加。

1.3.3使用describe()函数查看数据基本统计信息

舱位等级平均值为2.3,标准差为0.83,说明其波动范围不大。最小值为1,最大值为3.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值