数据分析系列:绩效(效率)评价与python实现(层析分析、topsis、DEA) 当分析一个项目是否可行,或多个决策中挑选出最优的一个进行执行,对以往的项目或人员进行绩效评价时,我们需要对一项业务或人员的绩效(效率)进行打分。这就是绩效(效率)评价的目标。假设有下面一个案例,我们对一个进行产品进行用户增长的广告投放,假设我们有多个广告承接商可以选择。具体的我们应该选择哪一个广告承接商?这就可以用一些绩效评价的方法解决,可用户绩效(效率)评价的方法非常多,这里只介绍层析分析法,...
用户增长:增长黑客——Growth Hacking Growth Hacking(以下简称GH)指的是通过非正常手段(一些技术手段)增加产品用户做法。其中Growth说的是用户增长,这是产品发展的重要目标,Hacking指的是一些技术手段,包括产品迭代、A/B test、落地页设计、邮件触达等手段,其最主要特点是不需要再获取用户上投放大量成本。特别是初创公司来说,在没有广告预算、市场营销活动以及市场推广专员的情况下,Growth Hacking 也...
数据分析系列:《精益数据分析》读书笔记和理解 这本书很符合分析中的二八定律,前面20%的内容,蕴含了整本书80%的内容。在数据的时代,我们希望我们的产品发展和用户增长都是数据驱动的。确保产品服务和营销有依据可寻。依据数据分析和数据挖掘的产品迭代在理论上是不断变优的。具体的,我们的数据分析结果需要深入,全面,并且最好符合认知才能正确的指导产品发展。一、什么指标是好的数据指标衡量一个指标的好坏的重要标准,是指标是可以比较的,并且简单易懂。...
用Python底层编写进行计量经济分析(四):自相关(原因、结果、检验:DW检验、补救:广义线性回归) 系列前面的文章:1.用Python底层编写进行计量经济分析(一):多元线性回归(参数估计、T检验、拟合优度、F检验)2.用Python底层编写进行计量经济分析(二):多重共线性(原因、结果、检验:条件数/方差膨胀因子、补救:岭回归)3用Python底层编写进行计量经济分析(三):异方差(原因、结果、检验:White检验、补救:广义线性回归)多元线性回归的基本假定:模型符合线性模式XX...
计量经济分析:计量经济学中的三大检验(LR, Wald, LM) 前面用Python底层编写进行计量经济分析(一):多元线性回归(参数估计、T检验、拟合优度、F检验)写过在多元线性回归时的参数检验方法t检验和方程整体的F检验。在分析中和实际情况中,我们可能会假定因素之间可能存在一定的约束条件。我们在意的不仅是x对y的影响,也关心我们的约束条件是否成立。于是产生了检验线性约束条件是否成立的F检验、似然比检验(LR)、沃尔德检验(Wald)和拉格朗日乘子检验(LM)...
数据分析系列:如何估计一个产品用户最大量(最大DAU)——附python计算代码 在做产品的时候,我们希望是数据驱动的。**一个产品的用户天花板(最大DAU)是指导产品的重要指标。**问题来了,如何估计一个产品的DAU?给出解决方案,这是本文解决的主要问题。一、估计最大DAU首先,一个产品的活跃用户可以分为两部分,第一部分是当天的新增天用户,第二部分是产品之前的存留用户。这两部分与DAU大致的关系如下:DAU(n)=A(n)+A(n−1)R(1)+A(n−2)R(2)+…...
数据分析系列:生存分析(生存曲线分析、Cox回归分析)——附生存分析python代码。 上一篇文章写了数据分析系列:归因分析原理、案例和python代码。但是现实中用户所归属的渠道可能很多,比如用户在网上商城的首页点击了一个产品,又在其他公众号的相关推荐点击了此产品,最终进行了下单,那这个产品的订单应该归属于哪个渠道?这就是归因分析中的多渠道归因。对于多渠道归因,有一些启发式的归因方法,比如“最终点击”(将订单归属于最后一个渠道)、“非最终点击”(归属于倒数第二个渠道)、“首次点击...
数据分析系列:归因分析原理、案例(附python代码) 本文主要对以下指标的计算和解释进行阐述,并使用案例说明,最后利用python编写代码进行计算:risk ratios and rate ratios(风险比率和比率比率,RR)risk difference and rate difference(风险差异和利率差异, RD)attributable proportion (attributable risk percent) for th...
《统计学习方法》七:手推“支持向量机” 第七章 支持向量机SVM是二分类模型,它的基本模型时定义在特征空间上的间隔最大的线性分类器。SVM由简至繁可分为:线性可分支持向量机、线性支持向量机、非线性支持向量机7.1.线性可分支持向量机与硬间隔最大化7.1.1.线性可分支持向量机...
使用Hive的窗口函数进行数据分析——以股票市场分析为例 声明:本文主要是实现利用Hive常用的窗口函数和一些数据分析思维分析数据,只是套用在股票数据的例子上,因此并不适用于提高投资技巧!我们先看一下常用Hive中常用的窗口:PRECEDING:往前FOLLOWING:往后CURRENT ROW:当前行UNBOUNDED:起点(一般结合PRECEDING,FOLLOWING使用)UNBOUNDED PRECEDING 表示该窗口最前面的行(起...
用Python底层编写进行计量经济分析(三):异方差(原因、结果、检验:White检验、补救:广义线性回归) 系列前面的文章:1.用Python底层编写进行计量经济分析(一):多元线性回归(参数估计、T检验、拟合优度、F检验)2.用Python底层编写进行计量经济分析(二):多重共线性(原因、结果、检验:条件数/方差膨胀因子、补救:岭回归)模型符合线性模式XXX满秩(无多重共线)零均值价值:E(εi∣Xi)=0E(ε_i|X_i)=0E(εi∣Xi)=0(自变量外生)同方差:Var(εi...
数据分析系列:分布分析法&用户留存分析法 本文部分内容来自数据分析(4):分布分析法&用户留存分析法,并在此基础上加入看了一些自己的理解和看法。一、分布分析法原文总结了几种划分方式,具体的划分还是需要根据所在的业务来考虑。必须我们在考虑支付宝支付的人群,不仅要考虑地域、年龄、等划分。还可以根据使用渠道(扫码、线上购物、线上跳转等渠道)、使用方式(PC, APP等)等其他方式划分。只要能想到的方面,并且该方面对业务改进可以起到作...
数据分析系列:用户分群和画像分析 本来想自己总结一下关于数据分析的一些东西,包括漏斗分析、存留分析、用户粘性、用户价值(rfm)和用户画像分析等方面的内容。但是网上资料十分多,自知肯定没有那些资深大牛写得好,而且自己写东西时间有限,想多总结一些关于模型和统计方面的东西。所以还是直接转载别人表述的比较清晰的文章吧,在此基础上加入一些自己的理解和注释。一、什么是用户画像?用户画像是通过对用户各类特征进行标识,通过标识给用户贴上各类...
数据分析系列:漏斗分析 一、漏斗分析漏斗分析是针对产品时间轴上流程上的数据分析方法,这与数据的横向对比存在本质逻辑的不同。漏斗分析希望通过观察每个流程节点上的转化与流失的人数得到出现问题或可以改进的流程节点。比如用户再网上购物时,一个购买用户会经历下面类似的流程链条:首页->搜索浏览->点击详情页->(加入购物车)->提交订单->结算->购买成功再比如,一个网上现金贷业务业务营...
用Python底层编写进行计量经济分析(二):多重共线性(原因、结果、检验:条件数/方差膨胀因子、补救:岭回归) 上一次对多元线性回归的估计以及参数和方程的显著性进行了python实现。但是这些都是建立多元线性回归的几个假设基础之上的:模型符合线性模式XXX满秩(无多重共线)零均值价值:E(εi∣Xi)=0E(ε_i|X_i)=0E(εi∣Xi)=0(自变量外生)同方差:Var(εi∣Xi)=σVar(ε_i|X_i)=σVar(εi∣Xi)=σ无自相关:cov(εi,εj)=0cov(ε...
用Python底层编写进行计量经济分析(一):多元线性回归(参数估计、T检验、拟合优度、F检验) 之前上学时计量经济学的模型实现总是用Eviews等软件实现。但是对于点击鼠标得到结果的方式,总是让自己感觉没有参与模型建立的过程。所以准备利用python写代码进行计量经济分析,对自己也做一个技术沉淀。暂时准备写以下几篇,后面再慢慢补充;多元线性回归和显著性检验(参数估计、T检验、F检验、拟合优度)多重共线性(导致结果、检验——方差膨胀因子、补救措施——岭回归)异方差(导致结果、检验——W...
A/Btest:组间的差异性检验,统计功效以及反选样本量,附python底层实现代码 先概括一下:本文主要阐述了A/Btest中组间差异的比率检验(单比率检验,双比率检验),统计功效和,以及何通过显著性水平还有统计功效反实验所需选样本量。根绝这些理论使用python对着三个功能封装成类,进行实现一、A/B test在产品发布,运营等场景我们都会遇到A/B test。A/B test通常为同一个目标,设计两种方案,将两种方案随机投放市场中。A/B test让组成成分相同(相似)...
风险平价、与基于PCA的风险平价改进投资方式(附回测效果) 一、组合投资的方式先大大致了解一下有多种资产是常用的投资方式:其中马克维茨的均值方差理论是需要投资方式的基础,其目标是:在约束最大风险下,投资组合的收益最大化;或约束最小收益下,投资组合风险最小。而这是等价的。对于不同风险下求解的最大收益组合,或不同收益下求解出的最小风险组合,在风险收益曲线上构成有效前沿有效前沿上面的点是不可能的组合,在有效前沿下面的点不是最优组合。二、风险评价模...
强化学习笔记+代码(七):Actor-Critic、A2C、A3C算法原理和Agent实现(tensorflow) 本文主要整理和参考了李宏毅的强化学习系列课程和莫烦python的强化学习教程本系列主要分几个部分进行介绍强化学习背景介绍SARSA算法原理和Agent实现Q-learning算法原理和Agent实现DQN算法原理和Agent实现(tensorflow)Double-DQN、Dueling DQN算法原理和Agent实现(tensorflow)Policy Gradients算法原理...
Hive Hive性能调优 最近慢慢把工作中涉及到的Hive知识和优化方法整理一下在实际业务中,我们使用的Hive通常是基于map reduce计算方式的。通俗的来讲,map负责映射或筛选关系(比如where,±等操作),reduce负责整合或这说规约操作(如group by,join等)。通常我们要评估我们所写的hql性能,需要先知道所写hql的执行过程和mapredcue过程。此处引用一张网上的图片,很好的表示和m...