3.2
################## ********************************
count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化
3.3 相对位置的度量和异常值的检测
z分数
z=(xi−x¯)s
切比雪夫定理:与均值距离在z个标准差之内的数据比例至少为(1-1/ z2 ),这里的z是大于1的任何值
z大于3或小于-3的我们视为异常值
df3 = pd.read_csv("E:\\data\\NCAA.csv")
In [167]:
df3.dropna(axis =1,how='all',inplace = True) #空数据清洗
In [169]:
df3.dropna(how='all',inplace = True)
In [170]:
df3
Out[170]:
Winning Team Points Losing Team Points.1 Winning Margin
<