linux+pycharm+anaconda
import pandas as pd
data1=pd.DataFrame([[20,99999,6],[30,999999,6],[2,999994],[27],[30,999999,6]],columns=["年龄","收入","家属数"])
data1.info()
data1.isnull()#返回datafrom类型
#删除含nan的行,返回删除后的数据
dn=data1.dropna()
#删除全为nan的行
dn=data1.dropna(how="all")
#nan值填充
fn=data1.fillna(6)
fn=data1.fillna({"收入":9999991,"家属数":7})
#删除重复着
pd=data1.drop_duplicates()
#按某列进行重复值删除
pd=data1.drop_duplicates(subset="家属数")
#按多列进行重复值删除(两列同时重复才删除)
pd=data1.drop_duplicates(subset=["家属数","收入"])
#保留重复值keep参数默认为first即保留第一个也可以为last保留最后一个,还可以是False即把重复值全部都删除
pd=data1.drop_duplicates(subset="家属数",keep="last")
#pandas数据类型 int float object string Unicode datetime64
#查看某特定列的数据类型
print(data1["家属数"].dtype)
print(data1['年龄'].astype('int'))
print(data1["年龄"].dtype)