数据分析
文章平均质量分 68
不务正业RD从产品经理转行到数据分析
这个作者很懒,什么都没留下…
展开
-
hive 踩坑 get_json_object 返回NULL或部分可解析部分解析不了
hive 使用函数get_json_object做json解析时,遇到部分数据可以解析,部分解析不了的问题(或者全部解析不了且确定代码正确): 字符串替换,translate(json,"NULL","null") ,再使用get_json_object。:json中如果存在字段的key为 NULL(注意:大写) ,则无法解析。原创 2023-01-18 18:47:24 · 2016 阅读 · 0 评论 -
学习心得——数据预处理(探索性数据分析)
典型例子,性别、种族、职业等。离散数据中,分。原创 2022-09-15 14:48:37 · 2343 阅读 · 0 评论 -
学习心得——第一类错误、第二类错误、统计功效
在某个文艺小清新网站上,有一则作者不可考的略黄略暴力的故事很好地阐述了这几个概念:话说N年过去了,某位性别不明的地球统治者决定要消灭地球上的男人们。但是怎样找到地球上所有的男人并把他们都消灭呢?这位统治者开发出了一种自动判别武器——如果胸小于A罩杯,则杀无赦;如果等于或大于A罩杯,则放过。如果用统计学的语言来说,由于武器旨在找出男人放过女人,每当它碰到一个没见过的人时,它就先假设这是个女人(「原假设」),如果这人罩杯太小,那就认为这肯定不是个女人(「推翻原假设」)。不是女人那还能是啥?男人呗(「原创 2022-09-14 17:13:16 · 1124 阅读 · 1 评论 -
学习心得——什么是P值?
P值就是当原假设为真时,得到与样本相同或者更极端的结果的概率。如果P值很小,说明原假设情况发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。原创 2022-09-14 16:38:24 · 2174 阅读 · 0 评论 -
使用聚类(K-means)分析方法对骑手进行分类标签定义
聚类分析的目标就是在相似的基础上收集数据来分类,属于无监督学习。就是通过行为数据,通过算法将相似的人群聚集在一起,形成不带标签的人群簇。再人为的对人群簇进行分析,寻找特征标签。............原创 2022-09-01 17:13:36 · 2076 阅读 · 3 评论 -
PSM+DID 效果评估python demo 、线性分类模型+双重差分法
1、使用PSM构建相似人群,确保实验组与对照组在AA期的评估指标趋势能够保持一致 2、通过DID对实验效果进行评估,确认策略对实验组的影响。原创 2022-07-14 14:35:59 · 4110 阅读 · 3 评论 -
利用XGBRegressor线性回归模型对核心指标的影响因子权重进行分析
利用xgb线性回归模型对核心指标的影响因子权重进行分析原创 2022-07-13 16:35:55 · 1518 阅读 · 0 评论