统计分析包括描述统计和推断统计两个部分。
对已有的数据整理,计算数据指标,平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差)是最常用的技术手段,也是最容易的。
# hanbb # come on!!! import tushare as ts import matplotlib.pyplot as plt # 股票数据获取 data_zglt = ts.get_hist_data('600050',start='2015-06-23',end='2017-11-16') data_pfyh = ts.get_hist_data('600000',start='2015-06-23',end='2017-11-16') # 收益率计算 data_zglt['returns'] = (data_zglt['close']-data_zglt['close'].shift(1))/data_zglt['close'].shift(1) data_pfyh['returns'] = (data_pfyh['close']-data_pfyh['close'].shift(1))/data_pfyh['close'].shift(1) # 求平均值 print(data_zglt['returns'].mean(),data_pfyh['returns'].mean()) # 求中位数 print(data_zglt["returns"].median(),data_pfyh["returns"].median()) # 求众数 print(data_zglt["returns"].mode(),data_pfyh["returns"].mode()) # 四分位数 print(data_zglt['returns'].quantile(i) for i in [0.25,0.75]) print(data_pfyh['returns'].quantile(i) for i in [0.25,0.75]) # 数据的离散度 稳定性 # 极差 print(data_zglt['returns'].max()-data_zglt['returns'].min()) print(data_pfyh['returns'].max()-data_pfyh['returns'].min()) # 平均绝对偏差(MAD:mean absolute devation) # define:数据和均值差值的 之和 的平均数(除以N) print(data_zglt["returns"].mad(),data_pfyh["returns"].mad()) # 方差(variance)和标准差(standard deviation) # var define:数据和均值差值的 平方之和 的平均数(除以N-1) print(data_zglt["returns"].var(),data_pfyh["returns"].var()) print(data_zglt["returns"].std(),data_pfyh["returns"].std()) # 描述性数据 print(data_zglt["returns"].describe(),data_pfyh["returns"].describe())