关于简单的描述性统计学
在大学时期也多多少少学了一下有关统计学的课程,如统计学1,统计学2,计量经济学,数理经济学,金融工程2 等等。但并无多大兴趣,学了就为了过科而已。我不是学霸,不能像《三傻大闹宝莱坞》的兰彻,或者《决胜21点》那位MIT的华裔马恺文,能把理论巧妙地运用到现实生活,并产生盈利。
现在在学习Python数据分析的过程中重拾统计学,先从简单的描述性统计做起,把理论与实际相结合运用起来。下面是总结的内容:
(本人非常懒惰,下面将大量借用猴子老师课程的图片)平均数
即对所以数进行算术/几何平均。为了追求精确性,一般在处理打了数据时,几何平均比较常用到。因为它统计的是所有的数,包括正常值和异常值,故当出现个别极端情况下,均值不具有代表性,例如演员行业的平均收入。四分位数
可以简单的理解为中位数的中位数,如下图:
为了更加直观,四分位数可以表现为箱线图的形式。如下:
这可以凸显出其优点:从整体描述出数据集的分部状态,下面用例子说明:
四分位数如何识别异常值呢?
猴子老师的课程提供一种方法,名为Tukey's test
总结:四分位数在初步的数据处理中挺有用的,箱线图能够提供很直观的数据分布情况。在大学中好像只提过一下四分位数,但是几乎没有用过。更常用的是求正态分布和对数分布的置信区间(如:95%)。有些复杂,不用很容易忘记,于实际生活没多大的作用。尽管很多事物都符合大数原则,但现实生活中一般面对的是小样本事件。根据大数原则制定的策略对应重复性低的事件没什么作用。
标准差
标准差可以描述样本的波动程度。是大学时期的老朋友了,经常用于计算股票,投资组合的波动情况,也会借用标准差来帮助期权定价(这是理想的情况)。现实中更多的是用期权的市场价格来反向计算出其的标准差。
标准分
就是Z值,一般用于构建正太分布,对数分布等,用得挺多,但不是很懂其原理。希望在以后的python数据分析中能把大学时期学的知识融会贯通。
用Python对股票进行描述性统计分析
会用到3个包:pandas, pandas-datareader 和 matplotlib
在画图中没有出现时间轴乃一大败笔,希望在下次课程具体学习matplotlib中能找到解决方法!