linux+pycharm+anaconda
import pandas as pd
#拿出数据,某几行或某几列
data=pd.DataFrame([[20,99999,6],[30,999999,6],[20,999994],[27],[30,999999,6]])
data.columns=["年龄","收入","家属数"]
data.index=[i for i in range(5)]
#通过传去表头拿数据
data[["收入","年龄"]]
#通过传去具体位置拿数据(前行后是列)
data.iloc[:,[0,2]]#选择所有行中的第一和第三列
#切片方法获取数据
data.iloc[::2,::2]
#筛选符合条件的数据,bool索引筛选
condition=data["年龄"]>25
data[condition]
#loc[[行表头],[列表头]]和iloc[[行索引],[列索引]]
#bool值和列表头筛选,多条件双中括号
data[data["年龄"]>25][["收入","家属数"]]
#混合筛选,ix[行索引,[列表头]],弃用
data.ix[0:2,["年龄","收入"]]
#replace替换,得指定被替换的源数据
new_data=data['收入'].replace(99999,999998)
#替换nana值,相当于fillna(),np.NaN是python对缺失值的表示方式
new_data=data.replace(np.NaN,999955)
#多对对替换,data.replace({旧值:新值,旧值:新值})
#排序ascending,False降序,True升序
new_data=data.sort_values(by=["年龄"],ascending=False)
#通过na_position将确实值显示在最前面
new_data=data.sort_values(by=["收入"],na_position="first")
new_data