一点点补充,因为自己python基础知识用到的时候总要百度,索性自己总结下:
1.pandas 数据框选取数据
df_1[:3] #数据框前三行
df_1 = df.iloc[0:10000,0:3] #选取数据前多少行,前多少列;如果只需要多少列,[:,0:3]
2.将数据框中的数据替换为0
data.replace(np.NaN,0)
data['a'].replace(1,0)
3.pandas改变列顺序
原始数据框:
data_1:
cols = list(data_1)
cols.insert(0, cols.pop(cols.index('Name'))) #这里0,表示插入第一列
data_1 = data_1.loc[:, cols]
data_1
运行代码,更改列顺序:
4.pandas 合并数据框
纵向合并
df1.append(df2)
横向合并
new_data = pd.concat([df_1,df_2,df_3],axis=1,ignore_index=False) #按照索引合并
#内连接,外连接,通过哪个字段连接,需要自行判断
new_data = pd.merge(df_1,df_2,how = 'inner',on = 'id')
5.pandas删除重复数据
data.drop_duplicates(subset = ['id'])
6.pandas 输出字段中前两位
data['new_id'] = data['id'].apply(lambda x: x[:2])
7.pandas 改变字段类型
data['kk'] = data['kk'].astype(dtype = 'str)
8.pandas 根据某个字段来统计另一个字段的数据量
data['stay'].groupby(data['gender']).value_counts()
9.pandas 改变数据框索引
data.set_index('id',drop = True) #drop表示去除原来的索引
10.value_counts() 使用
下面这个网址有这个方法的具体操作!
https://blog.csdn.net/Late_whale/article/details/103317396
## 实例
f_data = data.start.value_counts().reset_index() #data数据集中'start'字段个数统计
f_data.columns=['start','counts'] #将切片数据转化为数据框
f_data = f_data[f_data.counts<10] #符合条件的信息
11.pandas 删除某几列数据
df_3.drop(['基金类别','投资目标','投资理念'],axis = 1) #axis = 1表示列
12.统计某一列数据的空值个数
df_3['A'].isnull().sum()
未完待续。。。