数据分析
文章平均质量分 83
用户数据分析
Andy_shenzl
你看不懂的世界,背后都是原理
展开
-
数据指标体系
数据指标体系基于用户维度的标签体系&用户使用设备维度建立的标签体系ID-mapping用户属性维度个人信息:年龄、性别、地址、历史信息等–基本情况标签互斥情况-性别用户性别:自然性别和购物性别用户行为:通过用户行为可以挖掘用户偏好和特征用户订单相关行为、下单/访问行为、用户近30天行为类指标、用户高频时间段、用户购买行为、点击偏好、营销敏感度用户消费维度:可从浏览、加购、下单、收藏、搜索商品入手,品类越细越精确,给用户推荐或营销商品的准确性越高将商品品类抽象原创 2022-12-15 09:16:26 · 328 阅读 · 0 评论 -
模型优缺点总结
一、聚类算法1、kmeans定义:K-means算法,也被称为K-均值或K-平均算法,是一种广泛使用的聚类算法。K-means算法是基于相似性的无监督的算法,通过比较样本之间的相似性,将较为相似的样本划分到同一类别中。思想:事先确定常数K,常数K意味着最终的聚类类别数,首先随机选定初始点为质心,并通过计算每一个样本与质心之间的相似度(这里为欧式距离),将样本点归到最相似的类中,接着,重新计算每个类的质心(即为类中心),重复这样的过程,知道质心不再改变,最终就确定了每个样本所属的类别以及每个类的质心原创 2020-12-26 16:06:49 · 11484 阅读 · 0 评论 -
用户分层-RFM
基本简介根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有3个神奇的要素,这3个要素构成了数据分析最好的指标:最近一次消费 (Recency)消费频率 (Frequency)消费金额 (Monetary)–来源百度百科定义Recency:最近一次消费,意指上一次购买距离现在的时间,一般按照天进行计算Frequency:消费频率是顾客在限定的期间内所购买的次数,时间范围需要自己设定Monetary:指的是一段时间(通常是1年)内的消费金额实例:#定义相关函数原创 2020-07-03 13:54:40 · 600 阅读 · 0 评论 -
格兰杰因果检验_R实现
前言先做单位根检验,看变量序列是否平稳序列,若平稳,可构造回归模型等经典计量经济学模型;若非平稳,进行差分当进行到第i次差分时序列平稳,则服从i阶单整(注意趋势、截距不同情况选择,根据P值和原假设判定)。若所有检验序列均服从同阶单整,可构造VAR模型,做协整检验(注意滞后期的选择),判断模型内部变量间是否存在协整关系,即是否存在长期均衡关系。如果有,则可以构造VEC模型或者进行Granger因果检验,检验变量之间“谁引起谁变化”,即因果关系。一、平稳性问题1、单位根检验是序列的平稳性检验,如原创 2020-06-10 16:01:11 · 12427 阅读 · 6 评论 -
方差分析原理及python演练
前言检验多个总体均值是否相等,通过分析察数据的误差判断各总体均值是否相等相关概念:因素或因子(factor):所要检验的对象,要分析行业对投诉次数是否有影响,行业是要检验的因素或因子水平或处理(treatment):因素的不同表现,即每个自变量的不同取值称为因素的水平观察值:在每个因素水平下得到的样本值,每个行业被投诉的次数就是观察值试验:这里只涉及一个因素,因此称为单因素四水平的试验总体:因素的每一个水平可以看作是一个总体,比如零售业、旅游业、航空公司、家电制造业可以看作是四个总体样本数原创 2020-06-05 16:15:34 · 961 阅读 · 1 评论 -
python生存分析入门
引入什么是生存分析生存分析是对生存资料的分析。所谓生存资料是指描述寿命或者一个发生时间的数据。通过对某一具有相同特质的群体进行数据分析,我们可以得到这类人活过一定时间的概率。这就叫做生存分析。一个人的生存时间长短与许多因素有关,研究各个因素与生存时间有无关系以及关联程度大小,这也是生存分析。推广来说,疾病的复发可以看做“健康期”的生存,机器的故障可以看做“机器”的生存,甚至下岗职工再就业可以看做“失业期”的生存,生存分析可以被推广至很多问题的分析中去。应用场景生存分析最早在生物医学中使用的最多,用来原创 2020-06-03 17:24:19 · 5302 阅读 · 3 评论 -
数据分箱python代码深入解读
之前介绍了分箱的理论:https://blog.csdn.net/Andy_shenzl/article/details/88965169https://blog.csdn.net/Andy_shenzl/article/details/89015772#3.1WOE本次针对卡方分箱的代码进行解释数据集及完整代码:https://github.com/Andyszl/Feature_Engineering/blob/master/卡方分箱.ipynb分箱分箱的定义将连续变量离散化将多状态的原创 2020-06-01 17:43:35 · 2493 阅读 · 1 评论 -
深入理解DAU
如果我们在回答一个问题:公司最重要的指标是什么你日常关注最多的三个指标是什么……类似这样的问题,我相信DAU肯定会出现在你的答案里面。那么什么是DAU呢?DAU:【Daily Active User-日活跃用户数量】也就是我们日常说的日活定义我们说DAU是日活,只是笼统的概念,那么每个公司或者业务线都会有自身更加明确的定义。比如,每日登陆的用户数,每日浏览页面的用户数,等等当然也有更加严谨的定义,为了去除非正常数据,可以定义,浏览两个页面以上的用户、浏览时间超过3分钟的用户,等等正确定原创 2020-05-22 11:06:35 · 1017 阅读 · 0 评论 -
数据探索分析-EDA
目录一、什么是EDA定义plan二、案例实战1、整体步骤2、实例-python演示1>数据背景2>导入相关的包3>导入数据及数据概览4>变量初探索5>数据切分6>数据质量评估7>变量分析8>数据峰度和偏度8>数据增长变化可视化9>每个变量与目标变量之间的相关性10&...原创 2020-05-07 10:29:49 · 2062 阅读 · 0 评论 -
ARIMA模型原理及python实战
背景时间序列,就是按时间顺序排列的,随时间变化的数据序列。生活中各领域各行业太多时间序列的数据了,销售额,顾客数,访问量,股价,油价,GDP,气温。。。平稳性平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去平稳性要求序列的均值和方差不发生明显变化严平稳与弱平稳:严平稳:严平稳表示的分布不随时间的改变而改变。...原创 2020-04-27 15:28:27 · 4338 阅读 · 0 评论 -
Apache Zeppelin 安装及链接MaxCompute实现数据可视化
一、安装ZeppelinZeppelin是一款基于web的notebook工具,它支持以插件的方式接入各种解释器(interpreter),从而使用户能够以特定的语言或数据处理后端来完成交互式查询,并快速实现数据可视化。在官网页面下载最新版本:链接下载完成后,最好放在根目录下,直接解压终端进入解压目录:cd zeppelin-0.8.2-bin-all进入到bin里面执行...原创 2020-04-01 10:38:27 · 470 阅读 · 0 评论 -
Pycharm下载MaxCompute过程
MaxCompute-原ODPS是阿里巴巴云独立开发的大数据处理平台。它是一个快速的、基于云的大数据解决方案,支持多个分布式数据存储和处理模型,可以提供海量数据仓库和大数据建模服务。我们主要介绍下怎么在Pycharm上进行使用基本的SQL查询打开PycharmPycharm->preferences ->plugins里面搜索插件,如下图直接installed下...原创 2020-03-17 18:04:10 · 1490 阅读 · 2 评论