python数据分析基础-截取数据

最新推荐文章于 2023-06-13 05:49:50 发布

圆滚滚的程序员

最新推荐文章于 2023-06-13 05:49:50 发布

阅读量1.1k

点赞数 1

文章标签： python 数据分析

本文链接：https://blog.csdn.net/qq_39483957/article/details/104495027

版权

linux+pycharm+anaconda

import pandas as pd
#拿出数据，某几行或某几列
data=pd.DataFrame([[20,99999,6],[30,999999,6],[20,999994],[27],[30,999999,6]])
data.columns=["年龄","收入","家属数"]
data.index=[i for i in range(5)]

#通过传去表头拿数据
data[["收入","年龄"]]


#通过传去具体位置拿数据（前行后是列）
data.iloc[:,[0,2]]#选择所有行中的第一和第三列

#切片方法获取数据
data.iloc[::2,::2]

#筛选符合条件的数据,bool索引筛选
condition=data["年龄"]>25
data[condition]

#loc[[行表头],[列表头]]和iloc[[行索引],[列索引]]

#bool值和列表头筛选，多条件双中括号
data[data["年龄"]>25][["收入","家属数"]]

#混合筛选，ix[行索引，[列表头]],弃用
data.ix[0:2,["年龄","收入"]]


#replace替换,得指定被替换的源数据
new_data=data['收入'].replace(99999,999998)


#替换nana值，相当于fillna()，np.NaN是python对缺失值的表示方式
new_data=data.replace(np.NaN,999955)


#多对对替换，data.replace({旧值：新值，旧值：新值})

#排序ascending,False降序，True升序
new_data=data.sort_values(by=["年龄"],ascending=False)


#通过na_position将确实值显示在最前面
new_data=data.sort_values(by=["收入"],na_position="first")
new_data