学习Pandas
import pandas as pd data = pd.read_csv("../untitled5/bankloan.csv") data = data.drop(["违约", "其他负债", "信用卡负债"],axis = 1) #删除数据中"违约", "其他负债", "信用卡负债"的列数据 data = data.dropna() #删除一整行的值都为NA的行 data = data.set_index('日期') #用数据中日期列为列索引 print(data) ''' #直接索引 注意要先列后行 不能数字索引 data1 = data["年龄"]["2019-01-02"] #先列后行 print(data1) #按名字索引loc 不能用数字 data2 = data.loc["2019-01-02":"2019-01-04", "年龄":"工龄"] # 先行后列 可:多个索引 print(data2) #数字索引iloc 不能用名字 data3 = data.iloc[1,0] print(data3) #组合索引 data.ix(一删除)可用loc和iloc data4 = data.loc[data.index[1:4],"年龄":"工龄"] #将第二行和第五行索引名称导入 #=data.loc[data.index[1:4],["年龄","教育","工龄"] data5 = data.iloc[1:4,data.columns.get_indexer(["年龄","教育","工龄"])] #同理,将("年龄","教育","工龄")转化为列数导入 print(data4) print(data5) ''' #赋值操作 data_year = data['年龄'] #展示出首列和'年龄'列 #等价于 =data.年龄 print(data_year) data.年龄 = 100 #修改data中'年龄'列中的全部数值 赋值100 print(data) data.iloc[1,0]=999 #通过上面索引方法赋值某一个数值 print(data) #排序data.sort_values(key=' ',ascending=) ascending=False:降序 ascending=True:升序 data_sequence = data.sort_values(by = "工龄",ascending=False) print(data_sequence) data_sequence1 = data.sort_values(by = ["工龄","收入"],ascending=False) #若工龄相同,则按"收入"排序 print(data_sequence1.head()) #head()展示默认前5行 #首列排序 print(data.sort_index().head()) #对索引进行排序 本数据已经排好 因此无效果 默认ascending=True #Serise 只有一个列索引 一个列内容 sr = data.收入.head() sr_sequence = sr.sort_values(ascending=False) #对内容进行降序 sr_sequence1 = sr.sort_index() #对索引进行排序 同理可改ascending print(sr_sequence) print(sr_sequence1)
明天继续,加油