自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 资源 (1)
  • 收藏
  • 关注

原创 拉格朗日乘子法与对偶问题

拉格朗日乘子法与对偶问题1、原始问题假设f(x),gi(x),hj(x)f(x), g_i(x), h_j(x) 是定义在RnR^n 上的连续可微函数,考虑约束最优化问题: minf(x)min f(x)s.t.gi(x)≤0,i=1,2,……,ns.t. g_i(x)≤0, i = 1, 2,……,n s.t.hj(x)=0,i=1,2,……,ms.t. h_j(x)=0, i = 1, 2,

2017-12-20 17:25:40 7996 4

原创 数据分析36计(30):关于 AB 实验的 1.5 万字总结

实验原理假设检验的目标是拒绝原假设,它的核心是证伪。先假设原假设成立,然后计算原假设反面出现的概率,如果概率较大,则证明原假设不成立。对于 A/B Test 来说, p值是在实验组和对照组...

2021-08-10 12:30:58 5239 5

原创 数据分析36计(29):价格需求弹性和因果推断

目前出现了很多关于机器学习如何实现因果推断的理论论文,但还缺乏实际的应用场景和应用案例,这里探讨如何供应商利用因果推断计算价格弹性,从而指导价格的制定和浮动。为什么关注价格弹性经济学课程里...

2021-07-29 08:22:00 4852 4

原创 《5分钟说完一个概念》:什么是Bootstrap采用

想知道中国人的平均身高 (群体均值),群体方差为 。每次抽样 1000 人,抽样了 次。每次抽样的 1000人 的平均身高是一次随机抽样,这 次抽样得到的平均身高是一个样本,样本容量...

2021-06-22 18:05:00 520

原创 《5分钟说完一个概念》:什么是置信区间

在商业环境中,数据人员通常会收集一些数据,比如用户在网站上花费的时间,然后计算关于这些数据的一些统计数据,比如在网站上花费的平均或中值时间,最后呈现这些总结向业务提供统计数据。然而假设检查...

2021-06-16 10:33:31 793

原创 自学成为数据科学家的 10 个步骤

成为数据科学家不需要学位,这是一个跨学科的领域。只要你乐于学习新事物并愿意投入精力和时间,你就可以成为一名数据科学家。现在的问题是,从哪里开始?对于初学者来说,庞大的信息量可能会让人不知所...

2021-06-01 08:10:00 668

原创 数据分析36计(28):Python 使用 Flask+Docker, 100行代码内实现机器学习实时预测​...

本文的想法是快速轻松地构建 Docker 容器,Python 以使用 Flask 实现机器学习模型执行在线预测 API 。我们将使用 Docker 和 Flask-RESTful 实现线性...

2021-05-24 12:51:56 421

原创 数据分析36计(28):Python 使用 Flask+Docker, 100行代码内实现机器学习实时预测​...

本文的想法是快速轻松地构建 Docker 容器,Python 以使用 Flask 实现机器学习模型执行在线预测 API 。我们将使用 Docker 和 Flask-RESTful 实现线性...

2021-05-23 15:26:40 463 1

原创 数据分析36计(27):分析师与用户研究员,玩转定量研究和定性研究,落地研究结论...

前面的文章谈到了很多数据挖掘的方法论,对于方法的应用都直接给出了问题的研究假设,而本文倾向于讲述如何提出问题假设。问题假设是数据分析整个链路的上游环节,可以说好的结论都是基于好的研究问题假...

2021-05-13 08:11:46 809

原创 数据分析36计(26):传统行业数据分析,沃尔玛如何用马尔可夫链优化拣货流程...

案例 1 — 拣配过程让我们以物品拣选的各个步骤为例拣货步骤检查下一个商品的位置和数量转到该位置并检查是否存在该商品如果商品存在(订购数量),请选择它并移至下一个商品位置如果订购的商品不存...

2021-05-07 08:20:00 838

原创 数据分析36计(25):微软开源 DoWhy 之因果分析快速入门

因果分析是在统计领域内建立因果关系的实验分析。在数据分析中,我们始终对因果关系问题感到困扰,通常从统计角度对可用数据进行分析。虽然知道因果关系的金钥匙是 A/B 测试,但是由于某些原因(例...

2021-04-07 08:20:00 3083 2

原创 这段时间我在做什么~

真心话:这段时间我在做什么?除了每天白天工作忙的焦头烂额,晚上看论文肝原创之外,其实在做一件自己一直想做的事情——做网站。公众号比较局限于图文,虽然现在微信的视频号也开始发力了,但是学习这...

2021-03-06 17:00:00 256 1

原创 数据分析36计(24):因果推断结合机器学习估计个体处理效应

个体异质性为何重要传统的因果推断分析,主要关注焦点是平均处理效应(Average Treatment Effect)。许多科学和工程都会面临这样的挑战,从个性化的医疗救治方案,到定制型的营...

2021-02-20 09:00:00 7739 9

原创 我转行数据自学的这几本统计学,内含视频教程

如何建立这个自学系统?这里参考下知乎上两位清华大佬辅修统计学的课表,并列出每门课程的综合评估推荐的书籍和资源。图片来源:zhihu.com/question/4282以下课程学习周期两个...

2021-01-23 15:50:02 1333

原创 数据分析36计(23):长期转化率 A/B 实验的问题,用边际结构模型纠正后结论反转...

1. 背景和动机因果推断引起了互联网头部企业的数据团队重视,并积极招聘相关领域的统计学家,数据科学家,机器学习科学家。无偏因果估计在实际场景中比较困难,但确是保证结论正确的必须任务。关于...

2021-01-16 17:02:12 601

原创 数据分析36计(22):分析师入门常见错误 "幸存者偏差",如何用匹配和加权法规避...

在日常功能迭代分析中,一般会直接看使用该功能和未使用该功能的用户在成功指标上的表现,将两组数据求个差异值就得出功能的效果结论。但是有敏锐的分析师会发现,功能大部分情况下有筛选效应,即使用...

2021-01-14 08:00:00 1876

原创 数据分析36计(21):Uber、Netflix 常用倍差法模型量化营销活动、产品改版影响效果...

1 案例背景目前 Uber、Netflix 在商业分析中的因果推断常用模型主要是倍差法(Difference in Difference)和匹配(Matching),目前已在其平台中建立...

2021-01-03 11:30:38 1046 4

原创 数据分析36计(20):优化新财年广告预算,乘法营销组合模型的Python实现

目录(文末附数据和代码)1.简介如果你有做过FB广告投放,对 ROI 和 ROAS 这两个词一定不陌生,因为招聘的时候肯定会问你两个问题:你接触过多大的盘子?即花过多少预算。你的ROI...

2020-12-29 07:19:51 1419 2

原创 数据分析36计(19):美国生鲜配送平台【Instacart】如何实现按时配送——使用分位数回归...

往期系列原创文章集锦:数据分析36计(18):Shopify如何使用准实验和反事实来优化产品数据分析36计(17):Uber的 A/B 实验平台搭建数据分析36计(16):和 A/B 测...

2020-12-22 08:30:00 1277

原创 数据分析36计(18):Shopify如何使用准实验和反事实来优化产品

描述性统计数据和相关性关系探索是每个数据科学家的日常工作,但它们常常伴随着警告,即相关性不是因果关系。在Shopify,我们相信了解因果关系是探寻业务价值最大化的关键。由于因果关系可以验...

2020-12-17 08:30:00 650 2

原创 数据分析36计(17):Uber的 A/B 实验平台搭建

往期系列原创文章集锦:数据分析36计(16):和 A/B 测试同等重要的观察性研究:群组研究 VS 病例-对照方法数据分析36计(15):这个序贯检验方法让 A/B 实验节约一半样本量数...

2020-12-16 08:30:00 780

原创 数据分析36计(16):和 A/B 测试同等重要的观察性研究:群组研究 VS 病例-对照方法...

往期系列原创文章集锦:数据分析36计(15):这个序贯检验方法让 A/B 实验节约一半样本量数据分析36计(14):A/B测试中的10个陷阱,一不注意就白做数据分析36计(13):中介模...

2020-12-13 16:50:08 1134

原创 数据分析36计(15):这个序贯检验方法让 A/B 实验节约一半样本量

往期系列原创文章集锦:数据分析36计(14):A/B测试中的10个陷阱,一不注意就白做数据分析36计(13):中介模型利用问卷数据探究用户心理过程,产品优化思路来源数据分析36计(12)...

2020-12-11 07:01:00 2866 3

原创 2020年第一次随笔

现在是2020年11月28日凌晨2点整,失眠实在难熬,索性放弃入睡打开电脑记录几句。今天是来上海的第162天,也离毕业过去162天,因为今年特殊时期养成的习惯受益到现在,也想跟大家分享下...

2020-11-28 03:23:37 186

原创 数据分析36计(14):A/B测试中的10个陷阱,一不注意就白做

往期系列原创文章集锦:数据分析36计(13):中介模型利用问卷数据探究用户心理过程,产品优化思路来源数据分析36计(12):做不了AB测试,如何量化评估营销、产品改版等对业务的效果数据分...

2020-11-21 12:33:20 677

原创 一图讲清因果推断方法论,无法 AB 测试时分析的万能钥匙

1. 背景在产品快速迭代的过程中,数据分析师需要量化评估不同的市场营销活动和产品迭代等事件实际影响业务指标的效果,探索产品和业务的因果关系,并从结果中学习来不断验证产品迭代方向,使其业务...

2020-11-14 10:53:13 3845 7

原创 数据分析36计(13):中介模型利用问卷数据探究用户心理过程,产品优化思路来源...

往期系列原创文章集锦:数据分析36计(12):做不了AB测试,如何量化评估营销、产品改版等对业务的效果数据分析36计(11):如何用贝叶斯概率准确提供业务方营销转化率数据分析36计(十)...

2020-10-24 18:13:53 843

原创 数据分析36计(12):做不了AB测试,如何量化评估营销、产品改版等对业务的效果...

往期系列原创文章集锦:数据分析36计(11):如何用贝叶斯概率准确提供业务方营销转化率数据分析36计(十):Facebook开源时间序列预测算法 Prophet数据分析36计(九):倾向...

2020-10-16 07:30:00 3026

原创 数据建模:机器学习之如何进行特征工程(上)

在数据预处理之前,先来了解下特征工程,特征工程指的是在原始数据之中提取,构造,选择数据特征的过程。有句话是:“数据和特征工程决定了你能到达的上限,机器学习模型决定了你能多么逼近这个上限”...

2020-08-19 08:03:12 1057 1

原创 用数据分析的指标拆解思路如何从股市了解市场

今天是周末,在这里闲谈下以数据分析师的角色是如何学习在股市中掌握企业市场信息,仅供大家交流讨论,如果大家对这个感兴趣,再考虑写这个系列。看看平时工作中的数据分析思维怎么运用在其他地方,股...

2020-08-08 15:45:24 1041

原创 数据分析36计(11):如何用贝叶斯概率准确提供业务方营销转化率

点击上面查看该专辑往期文章????????????1. 背景seeder是一家在加利福尼亚州销售电动踏板车的公司,他们正试图通过在德克萨斯州开拓新市场,seeder的营销团队利用印刷媒体...

2020-08-02 11:00:00 327

原创 数据分析36计(11):如何用贝叶斯概率准确提供业务方营销转化率

点击上面查看该专辑往期文章????????????1. 背景seeder是一家在加利福尼亚州销售电动踏板车的公司,他们正试图通过在德克萨斯州开拓新市场,seeder的营销团队利用印刷媒体...

2020-08-02 11:00:00 274

原创 数据分析36计(十):Facebook开源时间序列预测算法 Prophet在分析师中热门使用

1. Prophet简介Facebook在2017年开源了一个叫fbprophet的时间序列预测的算法,Facebook 所提供的 prophet 算法Prophet是Facebook...

2020-06-26 16:21:50 1264

原创 今日头条秋招开启,帮助解析面试题准备数据分析岗位

头条2021届秋季校园招聘提前批已在6月16日正式启动(内推码: VSMRAPW)。今年需要秋招面试的同学们,已经可以开始准备相关的知识点了。下面挑出了典型的面试题来做些解析,欢迎在留...

2020-06-20 12:13:54 597

原创 数据分析36计(九):倾向得分匹配法(PSM)量化评估效果分析

1.因果推断介绍如今量化策略实施的效果评估变得越来越重要,数据驱动产品和运营、业务等各方的理念越来越受到重视。如今这方面流行的方法除了实验方法AB testing外,就是因果推断中的各...

2020-06-02 08:30:00 14983

原创 数据运营36计(八):断点回归(RDD)评估产品设计效果

1.断点回归断点回归设计可以控制观察到的混杂因素,也可以控制未观察到的混杂因素的影响,即可以防止遗漏变量带来的问题,除了工具变量和随机分组外,它应该是唯一的一个可以控制未观察到混杂因素...

2020-05-22 10:54:38 1912 1

原创 数据分析36计(七):营销增益模型(uplift model)如何识别营销敏感用户群,Python实现...

目前关于数据分析系列文章已更新到第7篇,其中5篇文章都是关于用户行为分析的内容。文章已收到【木东居士】和【俊红的数据分析之路】等公众号中数据分析大佬们的认可和支持。很多朋友在后台问我写的...

2020-05-08 15:40:11 1833

原创 数据可视化发现[吃鸡]秘密

大吉大利,今晚吃鸡~ 今天跟朋友玩了几把吃鸡,经历了各种死法,还被嘲笑说论女生吃鸡的100种死法,比如被拳头抡死、跳伞落到房顶边缘摔死 、把吃鸡玩成飞车被车技秀死、被队友用燃烧瓶烧死的。这种游戏对我来说就是一个让我明白原来还有这种死法的游戏。但是玩归玩,还是得假装一下我沉迷学习,所以今天就用吃鸡比赛的真实数据来看看如何提高你吃鸡的概率。那么我们就用python和R做数据分析来回答以下的灵魂发问...

2019-03-26 15:57:42 1148

原创 Sklearn ValueError: empty vocabulary; perhaps the documents only contain stop words

中文语料:CountVectorizer(lowercase=False)报错:CountVectorizer(token_pattern='(?u)\\b\\w\\w+\\b')

2019-03-26 15:36:42 5041 6

原创 R语言ggmap包的安装及使用

R语言ggmap包的安装及使用ggmap是绘制地图包,可以通过get_map函数调用google地图API。1 第一步尝试出错了一开始直接在R里面install.packages(“ggmap”),用get_map函数来调取地图数据,但是发生错误,显示这个函数请求的接口拒绝了我们的请求(http错误码:403),通过查阅资料,将get_map函数调取的接口URL 进行分析:library(...

2019-01-14 16:52:28 16338 1

计量经济学与R

用R实现计量经济学模型,非常使用哟。用R实现计量经济学模型,非常使用哟。

2018-12-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除