数据分析
我不知道取什么名字比较好啊
这个作者很懒,什么都没留下…
展开
-
Numpy 中 shape函数的简单使用
import numpy as npy = np.array([[1,2],[3,4],[5,6],[7,8])print(y.shape)## (4,2)print(y.shape[0])4print(y.shape[1])2numpy函数shape[0]返回数据集的行数numpy函数shape[1]返回数据集的列数...原创 2019-11-20 15:02:25 · 267 阅读 · 0 评论 -
sns画图时 区间横坐标的值重叠问题
首先我们执行的代码出现如下图形sns.barplot(data=titanic_df,x="AgeBand",y="Survived",ci=None)解决的办法 的 代码:sns.barplot(data=titanic_df,x="AgeBand",y="Survived",ci=None)plt.xticks(rotation=60)...原创 2019-11-13 20:31:11 · 2808 阅读 · 0 评论 -
pivot_table的简单介绍
代码来展示`titanic_df.pivot_table(values="Survived",index="AgeBand",aggfunc=pd.Series.count)`titanic_df.pivot_table(values="Survived",index="AgeBand",aggfunc="count")我们会发现 两个代码展现的结果是一样的...原创 2019-11-13 20:26:34 · 254 阅读 · 0 评论 -
Pandas groupby和数据透视表的使用
方法1:使用经典的分组-聚合-计算(第六节课核心内容)注意:因为Survived是0-1函数,所以均值即表示生还百分比titanic_df[['Pclass', 'Survived']].groupby('Pclass').mean() \ .sort_values(by='Survived', ascending=False)两者等同# 方法2:我们还可以使用pivot_ta...原创 2019-11-10 19:58:24 · 616 阅读 · 0 评论 -
Pandas 缺失值填充的方法
直接用代码来展示[基于泰坦尼克数据]真实数据往往某些变量会有缺失值。这里,cabin有超过70%以上的缺失值,我们可以考虑直接丢掉这个变量。 – 删除某一列数据像Age这样的重要变量,有20%左右的缺失值,我们可以考虑用中位值来填补。-- 填补缺失值我们一般不提倡去掉带有缺失值的行,因为其他非缺失的变量可能提供有用的信息。-- 删除带缺失值的行普通的方法(直接根据所需要的值来进行填充...原创 2019-11-10 19:35:10 · 1802 阅读 · 1 评论 -
Pandas describle参数
使用include=[np.object]来查看分类变量 只统计 字符串变量 的分布情况count: 非缺失值的个数unique: 非重复值得个数top: 最高频值freq: 最高频值出现次数titanic_df.describe(include=[np.object]) #得出字符串变量的分布情况titanic_df.describe() #得出数值型数据的分布情况...原创 2019-11-10 18:45:55 · 255 阅读 · 0 评论