python 数据分析常用操作
这是本人在数据分析中,记不住,反复查询的一些命令汇总,在此做个归纳汇总,并不定期更新。
Dataframe
import pandas as pd
合并DF
需求:有的时候需要将多个列相同的数据集(如别人的训练集和测试集)合并后再分析。
代码:
pd.concat([df1, df2])
参考:https://www.cnblogs.com/guxh/p/9451532.html
重置DF索引
需求:重组后的DF需要重置索引,通常发生在选择或排序操作后。
代码:
train = train.reset_index(drop=True)
参考:https://blog.csdn.net/qq_36523839/article/details/80640139
选取DF前几列
需求:分析的某个步骤中仅对DF的某些列进行分析。
限制:不知道列名。
代码:
sub_train = train.iloc[:,0:2]
对DF插入一列
需求:分析产生的派生数据需要放到DF里面。
限制:指定插入列的位置
代码:
df.insert(1,'d',np.ones(4))
参考:https://blog.csdn.net/brucewong0516/article/details/82493080
DF完全显示
需求:有些行、列太长了,显示不全,但预览时想看。
代码:
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
参考:https://blog.csdn.net/qq_34862636/article/details/102581675
DF取某一列的唯一值,并可视化其分布
需求:本来用numpy的unique就可以解决,但如果要取的列不是数字,而是字符串,这个时候用DF的操作更好。
代码:
data = pd.read_csv('event.csv',dtype='str',header = 0)
city_set = data['city'].value_counts()
city_set[0:20].plot(kind='bar', title='Events in different city')
plt.show()