pandas学习笔记

最新推荐文章于 2024-04-25 10:13:13 发布

eshaoliu

最新推荐文章于 2024-04-25 10:13:13 发布

阅读量677

点赞数

分类专栏： pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eshaoliu/article/details/51170411

版权

按照行数和列数select:

df.iloc[3]第三行

df.iloc[2:4] 第二到三行

df.iloc[:2,:3]0到１行，０到２列

df.iloc[[1,3,5],[1,3]]1,3,5行,1,3列

df[0]按列名取某一列

pandas.read_csv默认以,为分割符读文件

pandas.read_table默认以Ｔａｂ为分隔符读取文件,可以sep指定分割符

df.columns所有列名

df.index所有行索引

df.loc[3]第三行

df.iloc[3,4] /df.iat[3,4]效率更高第三行第四个元素

df.drop_duplicates(['user_id_y']) 去掉某列的重复行

groupby 聚合之后 reset_index()重置索引

data.drop_duplicates(['k2'])

一、当每列已有column name时，用 df [ 'a' ] 就能选取出一整列数据。如果你知道column names 和index，且两者都很好输入，可以选择 .loc

由于这边我们没有命名index，所以是DataFrame自动赋予的，为数字0-9

二、如果我们嫌column name太长了，输入不方便，有或者index是一列时间序列，更不好输入，那就可以选择 .iloc了。这边的 i 我觉得代表index，较好记点。

iloc 使得我们可以对column使用slice（切片）的方法对数据进行选取。

三、.ix 的功能就更强大了，它允许我们混合使用下标和名称进行选取。可以说它涵盖了前面所有的用法。基本上把前面的都换成df.ix 都能成功，但是有一点，就是

df.ix [ [ ..1.. ], [..2..] ], 1框内必须统一，必须同时是下标或者名称，2框也一样。 BTW， 1框是用来指定row，2框是指定column，当然上面所有的取数方法都是这个规则。

.apply(func,axis=1)是一行一行给元素

.apply(func,axis=0)是一列一列给元素

返回新列

判断某列是否有某个元素

t ='7739004195693774975'
topic[topic[1].astype(str).str.contains(t)]

一层方括号question_tra

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas学习笔记

按照行数和列数select:df.iloc[3]第三行df.iloc[2:4] 第二到三行df.iloc[:2,:3]0到１行，０到２列df.iloc[[1,3,5],[1,3]]1,3,5行,1,3列df[0]按列名取某一列pandas.read_csv默认以,为分割符读文件pandas.read_table默认以Ｔａｂ为分隔符读取文件,可以sep指定分割符
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。