统计与分析思维
文章平均质量分 71
有关统计学、分析思路
gulie8
这个作者很懒,什么都没留下…
展开
-
分类模型常用评价指标2
KS指标是征信行业中常用的模型评估指标,主要用于衡量风险模型好坏样本的区分能力。KS值是好坏样本累计部分之间的差值,好坏样本累计差异越大,KS指标越大。KS曲线和ROC曲线的绘制方法十分相似,将阈值作为横轴,将FPR和TPR都作为纵轴,同时将TPR和FPR的差值也作为纵轴,那么我们就可以得到KS曲线,而KS值是TPR和FPR的差值的最大值,其计算公式为:KS=Max(TPR-FPR)KS的取值范围是[0,1]。通常来说,KS值越大,表明模型能够越好地将好坏样本区分开来。计算步骤如下。...原创 2021-07-04 12:14:26 · 830 阅读 · 0 评论 -
分类模型常用评价指标1
在分类模型中,常用的评价指标包括混淆矩阵、ROC曲线、AUC、KS指标、提升度等。其中针对正负样本极度不平衡的分类问题,例如广告分类预测问题,最常用的模型评价指标就是AUC。混淆矩阵是分类问题中常用的模型评价方法之一。以广告二分类问题为例,假设模型预测为正例则记为1(Positive),如点击用户;预测为反例则记为0(Negative),如非点击用户,那么我们可以将实际的数据情况与模型预测结果相结合,得到以下2×2矩阵,也就是我们常说的混淆矩阵,如图4-2所示。其中,各参数说明如下:·T原创 2021-07-04 12:10:02 · 1759 阅读 · 0 评论 -
回归模型常用评价指标
在数据分析和数据建模过程中,我们需要对模型的泛化能力进行评价。面对不同的应用选择合适的评价指标,这样才能选出更合适的模型算法和具体参数。在实际建模任务中需要解决的两种问题:回归问题和分类问题。回归问题是指我们要预测的目标变量是连续的,比如房价预测、温度预测、点击率预测等;而分类问题是指我们要预测的目标变量是非连续的,比如动物的分类、花的种类、是不是坏客户等。分类问题还可以进一步细分为二分类问题和多分类问题,一般分类数超过两个的都属于多分类问题。回归模型常用评价指标:在回归建模中,常用的评原创 2021-07-04 10:45:11 · 3953 阅读 · 0 评论 -
假设检验分析1
假设检验又称为零假设,是数理统计学中根据一定假设条件由样本推断总体的一种方法,是用来判断样本与样本、样本与总体所产生差异原因的一种统计推断方法。其基本原理是先对总体的参数或分布提出假设,然后选取合适的统计量,并由实测的样本计算出统计量的值,再根据预先给定的显著性水平进行检验,最终做出拒绝或接受假设的推断。14.1.1 假设检验的基本原理在统计学中,假设一般用来指对总体参数所做的假定性说明。而假设检验是指先提出一个假设,一般是对总体参数或总体分布形态的假设,然后通过检验样本统计量的差异来推断总体参数之原创 2021-06-21 22:02:56 · 349 阅读 · 0 评论 -
相关与回归分析2
13.3 简单回归分析回归分析是通过最小二乘法拟合进行分析,主要用于确定一个或多个变量的变化对另一个变量的影响程度。而简单回归分析,则是使用Excel中的散点图、回归函数和回归分析工具等,对变量进行简单的回归分析。13.3.1 趋势线分析法趋势线分析法是建立在散点图图表的基础上的一种分析方法,主要通过为散点图添加趋势线的方法,来达到一元线性回归分析的目的。Excel中的散点图的趋势线包括对数、指数、多项式、线性等类型,不同类型的趋势线所使用的分析方法也各不相同,用户需要根据分析目的来选择相应的趋原创 2021-06-21 17:53:29 · 215 阅读 · 0 评论 -
相关与回归分析1
在统计学中,相关关系是一种确定性的关系,可以使用相关分析方法,来研究两个或多个随机变量之间的相关性,以确定变量之间的方向和密切程度。而回归分析是通过试验和观测来推断变量之间依存关系的一种统计分析方法,该分析方法是运用统计学的方法获得其数学模型,以确定自变量与因变量之间的关系,并通过自变量的给定值来推算或估计因变量的值。其回归分析和相关分析存在密切的相似关系,但是回归分析是使用数学公式的方式来表达变量之间的关系,而相关分析则是检验和度量变量之间关系的密切程度,在分析数据方面两者是相辅相成的。1..原创 2021-06-20 22:46:28 · 579 阅读 · 0 评论 -
描述性统计分析
描述性统计分析是统计学中的基础内容,主要用于研究数据的基本统计特征,从而掌握数据的整体分布形态。描述性统计分析是对分析数据进行正确统计推断的先决条件,其分析结果对进一步的数据建模起到了关键性的指导和参考作用。例如,在分析定量类型数据时,可以获得其均数、标准差、方差等指标;而对于一些计数类型及分类数据时,则可以获得其频率、比率等指标。频数分析:频数也称为次数,是指同一观测值在一组数据中出现的次数。使用该分析方法可以将零散的、分散的数据进行有次序的整理,从而形成一系列反映总体各组之间单位分布状况的.原创 2021-06-20 10:05:26 · 2854 阅读 · 0 评论 -
python计算峰度和偏度、相关系数
mimport pandas as pdx = [53, 61, 49, 66, 78, 47]s = pd.Series(x)print(s.skew())print(s.kurt())原创 2021-06-18 11:56:51 · 2159 阅读 · 0 评论 -
如何判断数据是否符合正态分布
1.根据偏度系数和峰度系数判断。SPSS 菜单栏,Analyze—Reports—Report Summaries in Rows「分析」→「描述统计」→「探索」→弹出对话框中,选择要分析的变量→点击「选项点」,弹出对话框中勾选「带检验的正态图」→「确定」。由于样本数较小,以K-S结果为准,sig.=0.2>0.05,服从正态分布。查看Q-Q图进一步确认。若偏度系数Skewness=-0.333;峰度系数Kurtosis=0.886;两个系数都小于1,可认为近似于正态分布。 或者通过Analyze—D原创 2021-06-18 11:55:14 · 48040 阅读 · 0 评论 -
市场预测的方法1
1.移动平均法案例:预测次年1月的销售额2.指数平滑法目录•1.指数平滑定义及公式•2.一次指数平滑•3二次指数平滑•4.三次指数平滑•5指数平滑系数α的确定1、指数平滑的定义及公式产生背景:指数平滑由布朗提出、他认为时间序列的态势具有稳定性或规则性,所以时间序列可被合理地顺势推延;他认为最近的过去态势,在某种程度上会持续的未来,所以将较大的权数放在最近的资料。基本原理...原创 2021-03-25 17:31:39 · 741 阅读 · 0 评论 -
统俗讲义之——何为统计显著性(Statistical Significance)
统计显著性,是针对某种比较来说的。要比较,就要有个标准。在一个统计研究里,“零假设”(Ho,读作H null)就是当下的参考标准。统计上的结论或假设总是倾向于保守,有点像惯性定律,除非你有足够的影响力显著改变了什么,否则我们不会轻易改变当前已有的结论——当然这个结论也是保守、合理、并有一定共识的。当将你的检验结果与“零假设”比较时,会出现四种情况:2x2表 “零假设”是对的 “零...原创 2019-11-10 21:10:13 · 12402 阅读 · 1 评论 -
模型思维——让模型让数据发现规律预测未来
前面的几种数据分析的思维都是用来解释是什么和为什么的问题,即what和why,而在模型思维中,主要是为了解释怎么样的问题,即how。通过模型,可以让数据发挥更大的效能,能够产生更有价值的信息。从模型说起模型是一个很常见的词语,现实生活中就存在各种的实物模型,而在数据分析中,模型主要是指数学模型。在这里,模型其实是联系现实世界和数据世界的工具,是现实世界中问题的数学转换,通过模型能够实现从零...原创 2019-10-30 16:55:08 · 1769 阅读 · 0 评论 -
图表思维——基于数据的图表化思考
图表思维是数据分析思维中的最简单和最基本的思维,主要是通过图形和表格对数据进行转化。文字有局限看到这段话,你会想到什么?这是15年年初的一个新闻,简单的看上去,短短的一段话包含了太多的信息。关键词包括国民生产总值,增长,季度,一二三产业,单位也包括了绝对值亿元,也包括了相对的增长百分比。乍一眼看上去,非常的复杂,如何梳理一下,就会清晰很多。首先第一句“2014年全年国内生...原创 2019-10-30 16:50:51 · 2534 阅读 · 0 评论 -
数据分析的心法、手法和利器
“人人都是数据分析师”,这句话并不是空穴来风,而是随着大数据的深入落地,每个产业都会以数据驱动的模式经营。因此,这要求产业中的每个人都必须能够分析数据。同时,伴随着技术的发展,也会有很多简单的工具供大家使用。当打开招聘网站中数据分析师的岗位介绍时,能够发现数据分析师的要求离不开做模型、能够使用分析软件、统计分析等几个关键词,一眼看去会给人一种这是一个技术要求很高,对数学要求很高的工作,数据分析...原创 2019-10-30 16:44:13 · 475 阅读 · 0 评论 -
挖掘思维——让数据分析插上智能的翅膀
在数据分析中,模型是非常有用和有效的工具和数据分析应用的场景,在建立模型的过程中,数据挖掘很多时候能够起到非常显著的作用。伴随着计算机科学的发展,模型也越来越向智能化和自动化发展。对数据分析而言,了解数据挖掘背后的思想,可以有助于建立更具稳定性的模型和更高效的模型。数据挖掘前世今生数据模型很多时候就是一个类似Y=f(X)的函数,这个函数贯穿了模型从构思到建立,从调试再到最后落地应用的全部过...原创 2019-10-30 16:24:11 · 333 阅读 · 0 评论 -
证析思维——用数据说话的系统思考
数据分析从最开始的图表分析出发,到更有技术含量的数据挖掘,其目的都是在让数据更好地指导在各行各业中更好地指导业务应用。前面的每种思维就像不同角度的工具一样,在不同方向上让数据发挥作用。在最后讲到的证析思维,就将像一串项链一样,把前面的珍珠都穿起来,从源头出来,来说明数据分析是如何从问题到数据,再从数据到答案的。证析——用数据说话的艺术证析思维其实就是用数据说话的思维,通过数据来描述问题,同...原创 2019-10-30 14:26:34 · 1051 阅读 · 0 评论 -
统计思维——通过统计方法解决分析问题
数据分析中总离不开统计学中的相关概念和方法,因而统计思维也是数据分析思维之一。在数据分析中,统计思维就是用统计的相关思维,来解决数据分析的问题。一数知全局这是16年的政府工作报告的讲话,从讲话中,你能看到什么?看到这段话你能想到什么16年政府工作报告的这段话中,有两个数据劳动年龄人口平均受教育年限10.23年和10.8年,这两个数据看似差别不大,然而回归到日常生活领域中,却能昭...原创 2019-10-30 13:47:17 · 3219 阅读 · 1 评论