1、格式化字符串
print('mean=%6.4f' %fs.mean())
打印的时候,第一个%占位符,第二个%后面的东西到前面,小数点前面的是6位,后面是4位,浮点型,所以有f。
2、median,mode ,mean.
3、hist,是直方图,bins 就是箱子,density正规化,如果是TRUE,的话,就是频率。
4、dropna就是去掉空值
5、正态分布是对称分布的一个类型,峰度,只要比正态分布要尖,就是尖峰
6、变量的分布,有节距是概念,均值是1节距,2节距(方差),3节距
7、skewness左偏是负,右偏是正,如果对称,就是0. kurtosis,尖峰大于0,就是尖峰。正态分布的峰度减去3,等于0.
8、价格是偏态分布,一般是右偏的分布
9、分布就是直方图的极限情况,天然产生的就是正态分布
10、正态分布,均值和方差确定,就确定了。
11、标准正态分布,均值为0,标准差为1
12、正态分布,1倍标准差范围内68%,2倍的95%,3倍是99%。
13、常用的包,数组矩阵向量的表示和运算,numpy,,优化后叫做pandas,集成了matplotlib(绘图)。SCIPY,科学计算的包,scipy对pandas进行了升级,statsmodle,统计建模方便,基于pandas的数据类型自动进行。之后又开发了scikit-learn,机器学习,支出PANDAS,要求很多数据的预处理工作。
14、核心部分是整体的思路。
15、求定积分就是求面积。
16、卡方分布,典型的右偏分布,位置,标准差,自由度,才能确定一个。
17、T分布,自由度,位置,标准差,T分布和正态分布很接近。
18、排队的等待时长,泊松分布,商业状态下,正态分布。
19、seaborn就是基于matplotlib包装的。散点图scatter diagram,两个变量之间的关系,通过这种方式发现变量之间的关系。
20