数据分析挖掘
nono19nice
这个作者很懒,什么都没留下…
展开
-
置信度和置信区间
置信度:这个数值存在于我们计算出的这个范围的可信程度,如果置信度是95%,则表示95%的概率真正的数值会在我们所计算的范围内。置信区间:根据95%的置信度计算出数值所在的区间。计算过程:①确定置信度=1-显著性水平,一般显著性水平选0.05,所以置信度为95%②根据①得到区间外的概率一共为5%,由于正态分布对称,所以分别为p=2.5%③根据②的概率去标准正态分布表格里查找 对应的标准分z值,得到为-1.96,由于左右对称,所以-1.96 和 1.96④计算区间:[A,B]A =原创 2022-03-31 15:12:28 · 11917 阅读 · 0 评论 -
【辛普森悖论】分析一下有没有可能出现“两个投放方案的转化率都在上升,但两者的综合转化率却对比下降”的可能?
数据分析中常遇见的辛普森悖论举例:分析一下有没有可能出现“两个投放方案的转化率都在上升,但两者的综合转化率却对比下降”的可能?答:有,存在基数即分母问题。转化率有较大差异 和 低点击率群体占比增大比如原先A方案 20人,转化1人,B方案100人,转化99人,总转化率 100/120现在A方案100人,转化6人,B方案20人,转化20人,总转化率 26/120。其他举例:男生点击率增加,女生点击率增加,总体为何减少因为男女的点击率可能有较大差异,同时低点击率群体的占比增大。如原原创 2022-03-31 15:00:56 · 1021 阅读 · 0 评论 -
HIVE udf、udaf、udtf函数定义与用法(最全!!!!!)
一、定义1、hive udf、udaf、udtf函数定义与用法(1)UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。(数学函数,字符串函数)(2)UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。(count,max)(3)UDTF(表格生成函数 User-Defined Table Functions):接收一行输入,输出(explode)总结:原创 2021-02-08 11:37:20 · 5451 阅读 · 0 评论 -
HIVE 计算连续n天登陆的用户
----用户连续n天登陆天数SELECT device_id ,diff_date --根据连续登陆的起始日期计算连续登陆天数 ,COUNT(ds)FROM ( SELECT device_id ,ds ,ROW_NUMBER() OVER (PARTITION BY device_id ORDER BY ds ) rnk ---计算当前日期 在 统计时间.原创 2021-02-08 10:58:39 · 859 阅读 · 1 评论 -
客户价值分析和精准营销
整理中...参考链接:(1)https://blog.csdn.net/wanglingli95/article/details/79444432原创 2020-04-14 11:18:09 · 422 阅读 · 0 评论 -
用户生命周期如何判断
整理中....原创 2020-04-14 11:15:58 · 854 阅读 · 0 评论 -
ks曲线、混淆矩阵、ROC曲线、AUC面积等指标定义和关系
原创 2020-04-13 16:36:14 · 646 阅读 · 0 评论 -
常见的风险欺诈方式(仅供参考,未完待续)
整理中...原创 2020-04-13 15:48:33 · 516 阅读 · 1 评论 -
流失用户分析相关研究专题(包括如何定义和召回)
整理中...原创 2020-04-13 15:46:08 · 418 阅读 · 0 评论 -
特征处理过程 中的 独热编码(onehot)与哑变量及python 代码实现
为什么要用onehot:二. 为什么使用one-hot编码来处理离散型特征?1.使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。2.将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余...原创 2019-03-02 19:37:18 · 5044 阅读 · 2 评论 -
机器学习特征工程--标准化和归一化
关于归一化和标准化1.标准化使用条件(1)不需要对特征进行归一化:基于树模型的方法举例: 随机森林/bagging/boosting/xgboost需要标准化的(基于距离的模型):回归分析(逻辑回归)/神经网络 / svm2.相关定义什么叫归一化(标准化):归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。为什么要归一化(标准化):...原创 2019-03-02 19:32:14 · 4394 阅读 · 0 评论 -
Kmeans聚类原理及python实现代码
kmeans 原理:(1)首先,随机确定k个初始点的质心;(2)然后将数据集中的每一个点分配到一个簇中,即为每一个点找到距其最近的质心,并将其分配给该质心所对应的簇;(3)对每一个簇,计算簇中所有点的均值并将均值作为质心(例:在三维空间里,计算各个点的x的均值得到x1,y的均值得到y1,z的均值得到z1,以此得到新的坐标点 x1,y1,z1,然后重新计算各个点距离最近的族)(4)重...原创 2019-03-02 19:14:43 · 2977 阅读 · 0 评论 -
ks(洛伦兹曲线)指标理解
KS(Kolmogorov-Smirnov)值越大,表示模型能够将正、负客户区分开的程度越大。KS值的取值范围是[0,1]通常来讲,KS>0.2即表示模型有较好的预测准确性。ks求解方法:ks需要TPR和FPR两个值:真正类率(true positive rate ,TPR), 计算公式为TPR=TP/ (TP+FN),刻画的是分类器所识别出的 正实例占所有正实例的比例...原创 2018-04-20 16:39:49 · 48874 阅读 · 7 评论 -
python corr函数求相关系数时发现某个维度的数据无法求
错误代码❌展示如下:结果:所以是为什么呢?上图已用黄色标出,因为数据类型的问题,所以我们只需要这样改就可以:新增红色箭头的代码就可以了...原创 2018-04-20 14:04:44 · 3733 阅读 · 0 评论 -
数据挖掘分析相关面试题(亲身经历),持续更新中(最新一次为20210209)
以下大多数都是博主或者博主同事经历过的面试题哟~关于工作内容的就不写啦,一些基础面试题跟大家分享下多看看面试题也能够让你快速了解自己的能力和短缺的地方哦~本篇博客会持续更新,也希望大家多多提供一些面试题哦~1、基础面试(1)自我介绍:emmm这个就不多讲啦,把大概背景讲清楚就可以(2)自己做过的项目介绍:大家可以选择最能够体现自己能力的项目。可以从以下几个方面来讲:a、简...原创 2018-04-13 17:50:20 · 22094 阅读 · 6 评论