Ch5 Getting started with pandas 笔记《python for data analysis》

最新推荐文章于 2019-04-11 14:15:00 发布

AdamZhu_Spark

最新推荐文章于 2019-04-11 14:15:00 发布

阅读量174

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34034442/article/details/84581287

版权

Chapter 5 Getting started with pandas

之前没有系统看过这本书，现在准备在blog上写笔记，记录一些以前没注意的或是觉得重要的，略去一些已知的

Data Frame 基本

df.head()会显示前5行用于展示
给已有df添加列，若用list array加，其长度要与原先相同，若用Series则不必In [57]: frame2
Out[57]:
year state pop debt
one 2000 Ohio 1.5 0.0
two 2001 Ohio 1.7 1.0
three 2002 Ohio 3.6 2.0
four 2001 Nevada 2.4 3.0
five 2002 Nevada 2.9 4.0
six 2003 Nevada 3.2 5.0
In [58]: val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
In [59]: frame2['debt'] = val
In [60]: frame2
Out[60]:
year state pop debt
one 2000 Ohio 1.5 NaN
two 2001 Ohio 1.7 -1.2
three 2002 Ohio 3.6 NaN
four 2001 Nevada 2.4 -1.5
five 2002 Nevada 2.9 -1.7
six 2003 Nevada 3.2 NaN
为一个不存在的列赋值会创造一个新列，del 可以删除列
（重要）对于df一些操作返回的Series的修改会反应在原df上（The column returned from indexing a DataFrame is a view on the underlying data, not a copy.）
可以用DF.T来转置dataframe

Index Object

用作dataframe index的输入list，array等会被转为index object，且是不可转变修改的（immutable）

index可以存在重复

Essential Functionality

reindex:

根据已有df和给定index创建一个新的index

droup

将多行或多列（加参数 axis=1）删掉，返回一个新的df

Indexing, Selection, and Filtering

Series可以和array一样操作

DataFrame一般可以用df['column_name']来索引列，或df[['column_name1', 'column_name2']]索引多列

要索引行：df[:3]，但直接df[2]不行

df<5,会返回bool df，可以用来index data[data<5]

ioc和iloc

ioc: 用axis label，iloc：用integer索引

data.loc['Colorado', ['two', 'three']]

data.iloc[2, [3, 0, 1]]

data.iloc[[1, 2], [3, 0, 1]]

data.loc[:'Utah', 'two']

Arithmetic and Data Alignment

Series或者DataFrame加减时，需要index或者index，column一致，不一致的会显示Nah

Nah值操作

用add等方法df1.add(df2, fill_value=0)

Function Application and Mapping

首先，numpy的element-wise 方法依然适用：

或者，对某个单行或单列的操作应用在每一行或列

默认是得到每列不同行的结果,对行操作

当指定 axis='columns'则得到每行不同列的汇总结果，对列操作

也可以返回特定结果

对于element-wise的python方程，用df.applymap(),若是Series用series.map()

Sorting and Ranking

sort_index()

可以指定行列或者升降序：

frame.sort_index(axis=1, ascending=False)

sort_values() 默认Nah到最后
rank() 赋给每个元素其排名，若一样的会用均值

对于一样的也可以用出现顺序排

在DataFrame中可以对每一行或列单独rank（）操作

一些应对排序时同样大小的方法(tie-breaking)：

Summarizing and Computing Descriptive Statistics

sum() mean() 等
一些可选参数：

*describe()可以显示各种数据描述性信息

方法：

Correlation and Covariance

相关性统计：.corr()

协方差：.cov()

Dataframe 计算一列与其他列的：corrwith()

Unique Values, Value Counts, and Membership

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AdamZhu_Spark CSDN认证博客专家 CSDN认证企业博客

码龄9年

19: 原创

121万+: 周排名

59万+: 总排名

1万+: 访问

: 等级

352: 积分

3: 粉丝

5: 获赞

16: 评论

28: 收藏

私信

关注

热门文章

最新评论

KNN SVM Softmax 在 CIFAR-10上的图像识别
奋斗吧小妮: 博主利用机器学习算法进行图像识别，选取CIFAR10数据集，完成CS231n的assignment可见博主在课余时间也针对自己感兴趣的内容进行了自学，并很好地融会贯通了课堂、课外学习的内容。本篇文章的讲解非常清晰，让我对于整个图像识别的整个过程有了了解，对于数学原理的讲解也非常清楚。有一个小小的建议是，部分以截图形式呈现的jupyter代码和结果，可以将代码用代码块表示，其余结果使用图片表示。
KNN SVM Softmax 在 CIFAR-10上的图像识别
nadph513: 图象的处理于相较于普通数据有很高的难度博主从KNN算法出发，提出了改良的算法以提升运算速度。这对我的启发很大，在尝试KNN时确实受困于算法的效率问题。博文的数学推导很丰富，重要部分的代码也没有缺失，无论的想要搞懂原理还是希望套用的都很有帮助。
KNN SVM Softmax 在 CIFAR-10上的图像识别
leanzhi: 对于图像的识别是一直以来的话题，博主选择的数据集很不错。图像处理的第一步应该就是对于像素的处理吧。给我留下最深印象的还是博主对于问题的处理的思路。简直不要太清晰。对于在数据处理的过程中遇到的问题，博主也是一一解决，能力可以说是很强大了。在有代码的同时，博主也有算法原理分析，更有助于理解。一个字，赞！
KNN SVM Softmax 在 CIFAR-10上的图像识别
rrrrrz: 看完先说一句666，不论是问题的选取，算法的选取，处理过程中的技巧，还是数据可视化，原理讲解，都令我拍案叫绝。CIFAR10也可以称得上是一个比较经典的问题了，作者在处理时，一步一步，抽丝剥茧，思路一点一点的在我们面前展开。在讲述算法时又富于灵性，巧妙的把算法的精髓展现在我们面前，代码的展示也是非常漂亮，最终的结果展示也令人印象深刻。
支持向量机笔记（Support vetctor Machines notes）
rrrrrz: 本文条理清晰，思路明确。在叙述原理时不论是几何，还是代数，还是后面的优化理论拉格朗日乘数法，再到最后的核函数的使用，无不是信手拈来，慢慢的掌控感。作者在娓娓道来的讲述原理时事无巨细，重要的部分还辅以图表来辅助理解，不得不说这篇博文通俗易懂，有富有深度。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。