第一单元学习笔记

最新推荐文章于 2023-01-15 15:52:24 发布

汤姆思

最新推荐文章于 2023-01-15 15:52:24 发布

阅读量91

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/asizhuzhu/article/details/118672217

版权

1.1数据载入与观察

1.1.1导入numpy和pandas

导入成功

1.1.2载入数据

注意事项：1若提示文件不存在，则应该把python文件保存到csv文件对应的根目录下。

2输出前要加上print

1.1.3.逐块读取

使用pandas读取文件时，常常会遇到大型文件，而有时候我们只想要文件的一小部

分。

读取前n行，语法(df=pd.read_csv('trains.csv',nrows=100)

每次按n行读取，语法(chunker=pd.read_csv('trains.csv',nrows=100,chunksize=10)

1.1.4.修改数据名称直接使用names,按照表格顺序逐个修改

数据观察

观察点：行，列，数据大小，格式

判断数据是否为空，使用df.isnull.head(),其中head()为判断的行数

1.1.5保存数据

df.to_csv('trains.csv')

第二节 pandas基础

pandas有两种数据类型，分别是Series和DataFrames，Series类似于一一对应的关系，DataFrames类似于表格之间的对应关系

上节课所写入的trains数据实际就是DataFrames类型的。

1.2.3查找DataFrames数据每列的名称（即上节课中提到的trains）

df.colums

1.2.4查找某列的所有值：文件名.列名称

删除表格中多余的列 del+文件名+要删除的列名称

隐藏列元素，用drop([列元素名称] axis=1)，其中axis=1的意思是数组横向变化，体现在列的增加或减少

注:隐藏功能不是默认保存结果的，需要赋值

1.2.5筛选逻辑

此项目中直接列出需要筛选的数据的条件即可

reset_index函数：给一列重新编写序号

iloc和loc的异同:两者均为提取列表中的特定几行的数据，不同的是loc函数需要把列的名称写出来，而iloc只需要知道提取列的编号

1.3探索性数据分析

1.3.1利用Pandas对示例数据进行排序

一般按照列进行排序

sort_values(by'' ascending)by指向要排列的特定的列，ascending为排列方式,true为正序，false为倒序。默认为true

按行升序sort_index

按列升序sort_index(axis=1)

按列降序sort_index(axis=1,ascending=false)

针对于泰坦尼克号乘客幸存情况的分析：

票价越高，幸存几率越大

舱位等级越高，幸存几率越大

1.3.2通过泰坦尼克号计算出在船上的最大家族有多少人：其方法是用到了DataFrame数据类型的相加，使用时要注意算术运算与数据对齐，只有相同的数据类型才能相加。

1.3.3使用describe()函数查看数据基本统计信息

舱位等级平均值为2.3，标准差为0.83,说明其波动范围不大。最小值为1，最大值为3.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一单元学习笔记

第一节数据载入与观察1导入numpy和pandas导入成功2载入数据注意事项：1若提示文件不存在，则应该把python文件保存到csv文件对应的根目录下。 2输出前要加上print3.逐块读取使用pandas读取文件时，常常会遇到大型文件，而有时候我们只想要文件的一小部分。读取前n行，语法(df=pd.read_csv('trains.csv',nrows=100)每次按n行读取，语法(chunker=pd.read_...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。