data science
自我总结
江謀人
这个作者很懒,什么都没留下…
展开
-
数值型数据的均值检验
-------------本章内容来源:python统计分析第八章----------------------------标准差和标准误的概念:标准差定义为各测量值误差的平方和的平均值的平方根,故又称为均方误差;标准误反映的是样本均数之间的变异(即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度)。也表示的是抽样的误差。因为从一个总体中可以抽取出多个样本,每...原创 2019-11-20 16:40:48 · 604 阅读 · 0 评论 -
相关性分析——皮尔逊
1.皮尔逊相关系数r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,...原创 2019-11-20 13:22:48 · 25916 阅读 · 0 评论 -
有关PDF
高斯分布概率密度函数(probability density function,PDF)和累积分布函数(CDF)1.累积分布函数是指随机变量X小于或等于x的概率。2.统计检验中经常要用到p-value,用分布的PDF从0开始进行积分。------------------关于PDF和PMF的关系:参考:https://www.zhihu.com/question/36853661计算方法...原创 2019-07-31 14:24:03 · 1366 阅读 · 0 评论 -
假设检验
对数据进行视觉上和定量的正太检验。1.之前,计算机能力有限时,数据分析常用步骤:你制定一个假设,收集你的数据,然后接受或拒绝这个假设。2. 现在是一个高度交互的过程。查看数据,解释数学模型,然后确定模型的最佳拟合参数。3. 从以下几个步骤开始:a. 视觉上检查数据b. 找到极端样本仔细检查c. 确定数据类型,如果是连续的,看是否是正态分布。4 离群值检验:通常定义是离样本均值超...原创 2019-11-20 13:19:10 · 367 阅读 · 0 评论