数据分析
文章平均质量分 62
Lens5935
这个作者很懒,什么都没留下…
展开
-
用户行为分析模型实践 — 路径分析模型
什么是用户行为路径?路径分析,是对用户在APP或网站页面中的上下游访问行为路径分布情况进行分析,挖掘出用户的频繁访问路径(探索用户在网站或应用APP上逗留的过程中采取的各项步骤,可随机对多条路径进行研究,不仅仅是分析一条预先设定的路径)并采用桑基图可视化展示。比如:当用户使用某APP时,是怎样从【首页】进入【详情页】的,用户从【首页】分别进入【详情页】、【播放页】、【下载页】的比例是怎样的,以及可以帮助我们分析用户离开的节点是什么.Session和Session Time:Session会话原创 2021-03-19 17:08:55 · 877 阅读 · 0 评论 -
数据分析之AARRR海盗模型解释
《精益数据分析》一书中给出了两套比较常用的指标体系建设方法论,其中一个就是比较有名的海盗指标法,也就是我们经常听到的AARRR海盗模型。海盗模型是用户分析的经典模型,它反映了增长是系统性地贯穿于用户生命周期各个阶段:用户拉新(Acquisition) 用户激活(Activation) 用户留存(Retention) 商业变现(Revenue) 用户推荐(Referral)AARRR模型:A 拉新: 通过各种推广渠道,以各种方式获取目标用户,并对各种营销渠道的效果评估,不断优化投入策略.原创 2021-03-13 10:51:42 · 4323 阅读 · 2 评论 -
【SQL】查询已经连续7天登陆的用户
整体思路:用户登录日期去重-->row_number()函数分组排序获得排序编号-->日期减去编号——根据每个用户count(值)判断连续登陆天数具体实现:用户每天登陆次数可能不止一次,所以需要将日期去重。 用row_number()函数将用户分组,按照去重后的日期排序后计数得到登录次数。 然后用日期减去计数得到结果(如果每次减去的结果相同,则表明用户一直处于连续登陆登录状态)。 最后按照用户和结果分组,得到相同值出现的次数,此时得到的值大于等于7的就是连续7天登陆的用户了。实原创 2021-01-05 16:36:01 · 4636 阅读 · 2 评论 -
Hive实现随机抽样(附详解)
select * from tab order by rand()limit 1000select *from ( select e.*, cast(rand() * 100000 as int) as idx from e ) t order by t.idx limit 1000表e为一个普通的表,里面存有数据,我们要从表e中随机抽出1000条数据作为数据样本。2,ran...原创 2021-01-05 15:44:36 · 9338 阅读 · 1 评论 -
Hive中常用函数 wm_concat & concat_ws & collect_set & sort_array总结
concat_ws & collect_set:应用1:user each_id user_id1 id1 user_id1 id2 user_id2 id1 user_id2 id2 user_id2 id3 user_id3 id1 user ids user_id1 id1,id2 user_id2 id1,id2,id3 user_id3 id1 select dt,原创 2021-01-05 12:10:50 · 6560 阅读 · 0 评论 -
数据分析之TGI指数
TGI(Target Group Index)指数,是反映目标群体在特定研究范围(如地理区域、人口统计领域、媒体受众、产品消费者)内的强势或弱势的指数。TGI指数= 【目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例】* 标准数100例如,将某地区15-24岁的人作为目标群体,将去[电影网站A]看电影作为相同特征;若该地区15-24岁的人中,有8.9%的人去过[电影网站A]看电影,而在该地区总体人群中,有6.6%的人去过[电影网站A]看电影,则[电影网站A]在15-2...原创 2020-11-11 11:03:21 · 2254 阅读 · 0 评论 -
Hive实现构造自增id列
需求 :需要为新建的表新增自增id,如2方式出现id为空情况。原因:order by 1 最终只有一个数据,应该order by原有数据的某个字段,如时间戳等解决办法:ok ,问题解决原创 2020-10-12 17:17:26 · 5149 阅读 · 0 评论 -
HiveSQL 实现10分钟时间粒度
需求: 就是时间段为10分钟粒度.有用户点击行为日志的时间戳.对用户点击量进行统计实现思路:因为数据有时间戳,可以通过from_unixtime()来获取具体的时间 有了具体的时间,就可以用minute()函数获取对应数据所在的分钟.minute()函数获取分钟为字符串 想法 00 - 10应该分到一组, 10- 20 应该分到第二组,依次类推. 用minute 整除 10的话, 00 - 10整除 10都为 0, 10- 20 整除 10都为1,依次类推 这样就可以把每1...原创 2020-09-23 16:06:18 · 2993 阅读 · 0 评论 -
数据维度相关知识--kylin
kylin理论基础:空间换时间,使用预计算(相比实时计算),对业务所需的维度组合和度量进行预聚合,提前把可能是查询都预先计算好,当查询到达时直接访问预计算聚合结果,反馈用户查询结果,省去对大数据的扫描和运算,而不是再去计算。kylin实现原理:kylin从数据仓库中最常用的Hive中读取源数据,使用MapReduce/spark作为cube构建的引擎,并把预计算的结果保存再Hbase中,对外暴露Rest API/JDBC/ODBC等查询接口。kylin的预聚合思想实现数据多维度下钻,将维度.原创 2020-09-14 16:16:56 · 357 阅读 · 0 评论 -
MySql常用知识盘点(知识大全)
1.连接服务器mysql -h 地址 -P 端口 -u 用户名 -p 密码SHOW PROCESSLIST -- 显示哪些线程正在运行SHOW VARIABLES -- 显示系统变量信息2.数据库操作-- 查看当前数据库SELECT DATABASE();-- 显示当前时间、用户名、数据库版本SELECT now(), user(), version();-- 创建库CREATE DATABASE[ IF NOT EXISTS] 数据库名 数据库选项数据库选项...原创 2020-06-14 13:34:24 · 217 阅读 · 0 评论 -
EXCEL VLOOKUP函数合并提取表格(类似数据库Join)
vlookup函数1.首先准备一个表格(2个sheet): 2.选中成绩表score中,pingyu列的第一个单元格,点编辑栏的fx,找到vlookup 点击确定3.在出来的参数对话框,第一个是查找项(即两个表中相同的关联列项),选中第一个学生“lisi”,这样为了能在第二张表里查找他4.第二个参数是查找合并的区域,点击第二张表pingyu(Sheet2),在列标题上拖动鼠标,选中B列和C列,第一列用来查找相同的学生...原创 2020-06-09 22:53:49 · 1456 阅读 · 0 评论 -
业务数据分析必备知识-彻底解决「没有数据分析思路」的问题
数据指标:指对当前业务有参考价值的统计数据 常用的数据指标: 常见业务数据指标的梳理原创 2020-04-18 11:41:01 · 404 阅读 · 0 评论 -
数据分析之埋点选择(数据分析运营必备)
前端埋点 OR 后端埋点: 若运营人员工作需要判断前端界面设计是否合理,是必须采用前端埋点方案的,这也是后端代码埋点无法完全代替全埋点的原因。 前端埋点: 如果你要统计用户点击发布回答按钮的点击率,一般是前端点击按钮行为发送点击日志,页面按钮展示发送pv展示日志,然后点击量/展示量,就是点击率,这里就要前端埋点。 适用于:需求运营阶段初期,产品功能相对简单需要分析与后端没有交互的行为...原创 2020-04-17 22:52:23 · 558 阅读 · 0 评论