统计学python是什么方向的_Python之路 03 描述统计学的操作

关于简单的描述性统计学

在大学时期也多多少少学了一下有关统计学的课程,如统计学1,统计学2,计量经济学,数理经济学,金融工程2 等等。但并无多大兴趣,学了就为了过科而已。我不是学霸,不能像《三傻大闹宝莱坞》的兰彻,或者《决胜21点》那位MIT的华裔马恺文,能把理论巧妙地运用到现实生活,并产生盈利。

现在在学习Python数据分析的过程中重拾统计学,先从简单的描述性统计做起,把理论与实际相结合运用起来。下面是总结的内容:

(本人非常懒惰,下面将大量借用猴子老师课程的图片)平均数

即对所以数进行算术/几何平均。为了追求精确性,一般在处理打了数据时,几何平均比较常用到。因为它统计的是所有的数,包括正常值和异常值,故当出现个别极端情况下,均值不具有代表性,例如演员行业的平均收入。四分位数

可以简单的理解为中位数的中位数,如下图:

为了更加直观,四分位数可以表现为箱线图的形式。如下:

这可以凸显出其优点:从整体描述出数据集的分部状态,下面用例子说明:

四分位数如何识别异常值呢?

猴子老师的课程提供一种方法,名为Tukey's test

总结:四分位数在初步的数据处理中挺有用的,箱线图能够提供很直观的数据分布情况。在大学中好像只提过一下四分位数,但是几乎没有用过。更常用的是求正态分布和对数分布的置信区间(如:95%)。有些复杂,不用很容易忘记,于实际生活没多大的作用。尽管很多事物都符合大数原则,但现实生活中一般面对的是小样本事件。根据大数原则制定的策略对应重复性低的事件没什么作用。

标准差

标准差可以描述样本的波动程度。是大学时期的老朋友了,经常用于计算股票,投资组合的波动情况,也会借用标准差来帮助期权定价(这是理想的情况)。现实中更多的是用期权的市场价格来反向计算出其的标准差。

标准分

就是Z值,一般用于构建正太分布,对数分布等,用得挺多,但不是很懂其原理。希望在以后的python数据分析中能把大学时期学的知识融会贯通。

用Python对股票进行描述性统计分析

会用到3个包:pandas, pandas-datareader 和 matplotlib

在画图中没有出现时间轴乃一大败笔,希望在下次课程具体学习matplotlib中能找到解决方法!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值