数学
文章平均质量分 79
nbszg
这个作者很懒,什么都没留下…
展开
-
数据分析系列:绩效(效率)评价与python实现(层析分析、topsis、DEA)
当分析一个项目是否可行,或多个决策中挑选出最优的一个进行执行,对以往的项目或人员进行绩效评价时,我们需要对一项业务或人员的绩效(效率)进行打分。这就是绩效(效率)评价的目标。假设有下面一个案例,我们对一个进行产品进行用户增长的广告投放,假设我们有多个广告承接商可以选择。具体的我们应该选择哪一个广告承接商?这就可以用一些绩效评价的方法解决,可用户绩效(效率)评价的方法非常多,这里只介绍层析分析法,...原创 2020-04-26 20:01:46 · 8939 阅读 · 2 评论 -
计量经济分析:计量经济学中的三大检验(LR, Wald, LM)
前面用Python底层编写进行计量经济分析(一):多元线性回归(参数估计、T检验、拟合优度、F检验)写过在多元线性回归时的参数检验方法t检验和方程整体的F检验。在分析中和实际情况中,我们可能会假定因素之间可能存在一定的约束条件。我们在意的不仅是x对y的影响,也关心我们的约束条件是否成立。于是产生了检验线性约束条件是否成立的F检验、似然比检验(LR)、沃尔德检验(Wald)和拉格朗日乘子检验(LM)...原创 2020-04-16 20:40:45 · 138007 阅读 · 9 评论 -
数据分析系列:如何估计一个产品用户最大量(最大DAU)——附python计算代码
在做产品的时候,我们希望是数据驱动的。**一个产品的用户天花板(最大DAU)是指导产品的重要指标。**问题来了,如何估计一个产品的DAU?给出解决方案,这是本文解决的主要问题。一、估计最大DAU首先,一个产品的活跃用户可以分为两部分,第一部分是当天的新增天用户,第二部分是产品之前的存留用户。这两部分与DAU大致的关系如下:DAU(n)=A(n)+A(n−1)R(1)+A(n−2)R(2)+…...原创 2020-04-16 11:21:24 · 2120 阅读 · 0 评论 -
数据分析系列:生存分析(生存曲线分析、Cox回归分析)——附生存分析python代码。
上一篇文章写了数据分析系列:归因分析原理、案例和python代码。但是现实中用户所归属的渠道可能很多,比如用户在网上商城的首页点击了一个产品,又在其他公众号的相关推荐点击了此产品,最终进行了下单,那这个产品的订单应该归属于哪个渠道?这就是归因分析中的多渠道归因。对于多渠道归因,有一些启发式的归因方法,比如“最终点击”(将订单归属于最后一个渠道)、“非最终点击”(归属于倒数第二个渠道)、“首次点击...原创 2020-04-15 11:48:56 · 25068 阅读 · 26 评论 -
数据分析系列:归因分析原理、案例(附python代码)
本文主要对以下指标的计算和解释进行阐述,并使用案例说明,最后利用python编写代码进行计算:risk ratios and rate ratios(风险比率和比率比率,RR)risk difference and rate difference(风险差异和利率差异, RD)attributable proportion (attributable risk percent) for th...原创 2020-04-13 18:26:00 · 20287 阅读 · 5 评论 -
《统计学习方法》七:手推“支持向量机”
第七章 支持向量机SVM是二分类模型,它的基本模型时定义在特征空间上的间隔最大的线性分类器。SVM由简至繁可分为:线性可分支持向量机、线性支持向量机、非线性支持向量机7.1.线性可分支持向量机与硬间隔最大化7.1.1.线性可分支持向量机...原创 2020-04-09 20:29:26 · 178 阅读 · 0 评论 -
《统计学习方法》六:手推“逻辑回归与最大熵模型”
第六章 逻辑回归与最大熵模型逻辑回归主要用于二分类问题,与线性回归的核心区别在于,逻辑回归是一个对数线性模型。6.1.逻辑回归模型6.1.1.逻辑分布6.1.2.二项逻辑回归模型6.1.3.模型参数估计6.1.4.多项逻辑回归6.2.最大熵模型6.2.1.最大熵原理最大熵原理是概率学习模型的一个准则。最大熵原理认为,在学习概率模型时,所有可能的概率模型中,熵最大的模型...原创 2020-04-09 10:38:32 · 191 阅读 · 0 评论 -
《统计学习方法》五:手推“决策树”
第四章 决策树决策树是一种基本的分类与回归方法,可以认为是if-then的集合。常用的决策树算法有ID3和C4.5以及CART5.1.决策树模型与学习5.1.1.决策树模型决策树定义:分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型。内部结点和叶结点,内部节点表示属性,即建模使用特征。叶节点是一个类,即标签。决策树将一个实例在树上进行查找,最后...原创 2020-04-09 10:36:53 · 747 阅读 · 0 评论 -
《统计学习方法》四:手推“朴素贝叶斯法”
第三章 朴素贝叶斯法朴素贝叶斯法是通过学习输入XXX和输出YYY的联合分布P(X,Y)P(X,Y)P(X,Y),对给定的输入xxx,根据贝叶斯理论求出后验概率最大的输出yyy的方法。是一种生成学习方法4.1.朴素贝叶斯算法的学习与分类4.1.1.基本方法4.1.2.后验概率最大化的含义朴素贝叶斯将实例分到后验概率最大的类中,这等价于期望风险最下化。4.2.朴素贝叶斯算法的参数...原创 2020-04-09 10:35:42 · 232 阅读 · 0 评论 -
《统计学习方法》三:手推“k近邻法”
第三章 kkk近邻法k-NN是一种基本的分类和回归方法,没有显式的表达过程。3.1.kkk近邻算法原创 2020-04-09 10:34:22 · 231 阅读 · 0 评论 -
《统计学习方法》二:手推“感知机”
第一章 感知机感知机是一个二分类问题线性模型。旨在于找到一个超平面将正负样本分开。是支持向量机SVM和神经网络的基础。2.1.感知机模型感知机时一种线性分类模型,属于判别模型。感知机的假设空间是定义在特征空间的所有线性分类模型或线性分类器。具体定义如下:2.2.感知机学习策略2.2.1.感知机的线性可分如果存在一个超平面wx+b可以将正负两类样本完全的划分到超平面两侧,则称该数据...原创 2020-04-09 10:33:07 · 222 阅读 · 0 评论 -
用Python底层编写进行计量经济分析(三):异方差(原因、结果、检验:White检验、补救:广义线性回归)
系列前面的文章:1.用Python底层编写进行计量经济分析(一):多元线性回归(参数估计、T检验、拟合优度、F检验)2.用Python底层编写进行计量经济分析(二):多重共线性(原因、结果、检验:条件数/方差膨胀因子、补救:岭回归)模型符合线性模式XXX满秩(无多重共线)零均值价值:E(εi∣Xi)=0E(ε_i|X_i)=0E(εi∣Xi)=0(自变量外生)同方差:Var(εi...原创 2020-04-08 20:03:24 · 12441 阅读 · 6 评论 -
用Python底层编写进行计量经济分析(二):多重共线性(原因、结果、检验:条件数/方差膨胀因子、补救:岭回归)
上一次对多元线性回归的估计以及参数和方程的显著性进行了python实现。但是这些都是建立多元线性回归的几个假设基础之上的:模型符合线性模式XXX满秩(无多重共线)零均值价值:E(εi∣Xi)=0E(ε_i|X_i)=0E(εi∣Xi)=0(自变量外生)同方差:Var(εi∣Xi)=σVar(ε_i|X_i)=σVar(εi∣Xi)=σ无自相关:cov(εi,εj)=0cov(ε...原创 2020-04-05 12:23:06 · 5373 阅读 · 0 评论 -
用Python底层编写进行计量经济分析(一):多元线性回归(参数估计、T检验、拟合优度、F检验)
之前上学时计量经济学的模型实现总是用Eviews等软件实现。但是对于点击鼠标得到结果的方式,总是让自己感觉没有参与模型建立的过程。所以准备利用python写代码进行计量经济分析,对自己也做一个技术沉淀。暂时准备写以下几篇,后面再慢慢补充;多元线性回归和显著性检验(参数估计、T检验、F检验、拟合优度)多重共线性(导致结果、检验——方差膨胀因子、补救措施——岭回归)异方差(导致结果、检验——W...原创 2020-04-03 11:29:45 · 11439 阅读 · 2 评论 -
A/Btest:组间的差异性检验,统计功效以及反选样本量,附python底层实现代码
先概括一下:本文主要阐述了A/Btest中组间差异的比率检验(单比率检验,双比率检验),统计功效和,以及何通过显著性水平还有统计功效反实验所需选样本量。根绝这些理论使用python对着三个功能封装成类,进行实现一、A/B test在产品发布,运营等场景我们都会遇到A/B test。A/B test通常为同一个目标,设计两种方案,将两种方案随机投放市场中。A/B test让组成成分相同(相似)...原创 2020-03-31 17:03:58 · 7146 阅读 · 6 评论 -
风险平价、与基于PCA的风险平价改进投资方式(附回测效果)
一、组合投资的方式先大大致了解一下有多种资产是常用的投资方式:其中马克维茨的均值方差理论是需要投资方式的基础,其目标是:在约束最大风险下,投资组合的收益最大化;或约束最小收益下,投资组合风险最小。而这是等价的。对于不同风险下求解的最大收益组合,或不同收益下求解出的最小风险组合,在风险收益曲线上构成有效前沿有效前沿上面的点是不可能的组合,在有效前沿下面的点不是最优组合。二、风险评价模...原创 2020-03-27 16:43:34 · 3110 阅读 · 0 评论 -
手推 GBDT与xgboost
先说结论:GBDT与xgboost的主要区别是GBDT利用的一阶导数的思想去拟合每棵树,xgboost利用二阶导数思想去拟合每棵树。另外xgboost还加入了其他许多技巧,比如xgboost加入和正则项是模型泛化能力更强;同时xgboost还支持并行计算(每棵树还是串行,并行是特征维度的并行);xgboost在训练完一棵树后都会为其叶子节点的分数乘以一个缩减权重(shrinkage)。来给后面...原创 2020-03-24 15:04:54 · 591 阅读 · 0 评论 -
风控-评分卡模型建立流程
评分卡建模流程对于风控中的评分卡模型,常用A/B/C三类评分卡。其中A类评分卡指贷前的信用评分卡,用于审批等流程。B类主要是贷中,起到对用户还款进行预警和提醒作用。C类评分卡主要用于催收等催收流程。下面以A卡为例,大致介绍一下评分卡建模的简易流程(每个步骤暂时没有展开介绍,后续慢慢补充):评分卡目标确定:确立建立评分卡用途(审批,催收等)观察期和表现期确定、好坏样本的定义:观察期用于确...原创 2020-01-16 18:34:41 · 2352 阅读 · 0 评论 -
幂等矩阵的理解
一.幂等矩阵的定义若对于方阵A存在如下关系:AA=AAA=AAA=A,则称A为一个幂等矩阵二.一些常见的幂等矩阵1.单位矩阵III2.某一行全为1,其余行全为0的矩阵AAA(证明:设AAA的第mmm行全为1,其余行全为0。B=A∗AB=A*AB=A∗A,可知bij=∑k=1naikakjb_{ij}={\textstyle\sum_{k=1}^n}a_{ik}a_{kj}bij=∑k=...原创 2019-12-09 20:48:51 · 22294 阅读 · 0 评论