自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 如何用SQL统计用户复购(or留存)数据

在工作中,如果涉及到用户交易的数据,我们可能会经常统计每天的新户(用户在当日首次完成交易)交易用户数、新户在次日、T+n日、次周、下下周、在自然月当月、在下月、在下下月等不同的时间周期内的复购数据。用户在首次交易的日期之后的第n天,再次发生了交易行为,我们称之为用户在第n天的复购。其实,用户在第n天产生了复购行为,也就是用户在第n天之后还是留存的。复购和留存的意思是一样的。这些统计数据其实是非常常见的,所以我在这些常见的复购统计情况做个总结。在这之前,需要先了解一些常见的SQL函数。统计复购数据涉及的

2020-08-13 19:08:13 5427 4

原创 tableau在数据分析中的作用

最近半年,为了提高数据分析的效率和降低人力资源,公司开始引入tableau工具。tableau本质上是进行数据可视化和数据分析的商业智能BI工具。引入tableau的目标公司引入tableau的目标,主要是基于想借助tableau的BI探索分析能力,将探索性的数据分析需求转移给业务侧的产品or运营等同事自行探索,达到释放数据开发人力的目的。具体来说,我们已经有汇总数据,以及常用的维度指标数据的报表平台,但是当业务同事发现汇总报表的某个指标有异常,一般而言是会找我们数据开发人员定位问题的原因。引入tab

2021-01-04 20:04:16 1726

原创 数据从业人员对“跳出提数工具”的一点思考

还差半个月,我就入职满1年了。回想这一年,从一开始的生疏,到现在对各种需求的游刃有余,自己也算成长了很多吧。我很庆幸自己进入了一个很好的团队,同时也有一个很好的导师带我。我上周在写转正总结的时候,总结了一下自己这快一年来做的事情,无非是:提数需求、报表开发、数提开发、日报推送、数据异常排查和原因定位、宽表建设等。其中,来自业务方的提数需求,应该占据了我日常需求的半壁江山吧。我的工作内容和业务息息相关,工作中我所用到的技术栈不是很多,但是却经常需要和开发、前端和产品等各方人员对逻辑。老实说,和他们的沟通过

2020-10-15 18:51:22 1125 4

原创 运营中的数据分析

作为一名数据从业人员,从日常的工作需求和思考中,我愈发认为:数据分析的基本方法是统计,核心是业务理解和逻辑推理。为了能更全面地介绍数据分析,这篇文章我将从:什么是数据分析、数据分析的基本步骤、数据分析的误区和构建指标监控体系的必要性这四个方面展开。1.什么是数据分析?如果用一句话概括什么是数据分析,在我看来,就是:数据分析是用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论的过程。一个完整的数据分析体系应该是如下图所示:完整的分析体系内容报告类型层级发

2020-09-25 17:25:40 811

原创 谈一谈spark SQL的调优经验

什么是spark SQLSQL是一种结构化的数据库查询语言。而spark SQL是spark套件中的一个组件,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于hive通过SQL的形式将数据的计算任务转换成了MapReduce。通常来说Hadoop是一整套大数据解决方案,包括了存储(HDFS)、计算(MapReduce)和资源调度管理(Yarn)。hive是Hadoop生态发展起来的一个数据仓库,可以使用hive SQL实现MR,并且将HDFS映射成表。而spark是基于内存计算的大数据并行

2020-09-02 16:53:19 465

原创 工作中对数据分析思路的一点思考

工作中,经常会遇到产品、运营等各方人员对某个数据的疑问,或者各种各样的数据需求和数据问题。对于数据从业者,我越来越意识到我们不仅仅需要掌握必要的编程基础和专业知识,也需要掌握一些常见的数据分析思路,进而提高自己的数据敏感度。以下内容是自己在工作中总结出来的一些数据分析思路。解决数据问题的通用框架通常,解决数据问题可以分为以下五步进行:1、明确目标1.1明确分析对象:确定分析对象,定义该对象,确定该对象的衡量标准;1.2明确分析目的:为什么分析它?是否有更本质的问题?它的目标受众是什么?它的最终受益

2020-08-24 11:35:49 1434

原创 leetcode之连续子数组的最大乘积

题目: 给你一个整数数组 nums ,请你找出数组中乘积最大的连续子数组(该子数组中至少包含一个数字),并返回该子数组所对应的乘积。示例 1:输入: [2,3,-2,4]输出: 6解释: 子数组 [2,3] 有最大乘积 6。示例 2:输入: [-2,0,-1]输出: 0解释: 结果不能为 2, 因为 [-2,-1] 不是子数组。思路:求乘积的最大值,示例中告诉我们,由于负数的出现,一个正数乘以负数就变成了负数,即:最大值乘以负数就变成了最小值;同理,最小值乘以负数,也可能变成最大值。最大

2020-08-17 10:49:55 1509

原创 leetcode之最长的回文子串

题目:给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。示例 1:输入: “babad”输出: “bab”注意: “aba” 也是一个有效答案。示例 2:输入: “cbbd”输出: “bb”思路:中心扩散法——遍历每一个索引,以这个索引为中心,利用“回文串”中心对称的特点,往两边扩散,看最多能扩散多远。在这里需要注意一个细节:回文串在长度为奇数和偶数的时候,“回文中心”的形式是不一样的。1、奇数回文串的“中心”是一个具体的字符,例如:回文串“aba”

2020-08-10 11:31:01 161

原创 hbase的介绍和数据结构

HBase是什么?首先来看HBASE的官方定义:“Apache Hbase is the Hadoop database,a distributed,scalable,big data store, Hbase is a type of ‘NoSQL’ database",这句话翻译过来的意思就是:Apache HBASE是基于Hadoop的”nosql“数据库,而且它还是分布式的、可拓展的大数据存储。从而我们也知道了,HBASE能存储海量数据的原因,在于HBASE是在Hadoop和与之关联的HDFS上搭

2020-08-03 17:20:42 1903

原创 leetcode之动态规划系列1

1、输入一个整型数组,数组里有正数也有负数。数组中的一个或连续多个整数组成一个子数组。求所有子数组的和的最大值。要求时间复杂度为O(n)。示例1:输入: nums = [-2,1,-3,4,-1,2,1,-5,4]输出: 6解释: 连续子数组 [4,-1,2,1] 的和最大,为 6。思路:该题可以用动态规划的方法求解。状态定义:设动态规划列表dp,dp[i]代表元素nums[i]为结尾的连续子数组的最大和;转移方程:若dp[i-1]<=0,说明dp[i-1]对dp[i]产生负贡献,即

2020-07-31 17:01:47 230

原创 leetcode刷题之MySQL系列

1、编写一个 SQL 查询,查找所有至少连续出现三次的数字。±—±----+| Id | Num |±—±----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |±—±----+例如,给定上面的 Logs 表, 1 是唯一连续出现至少三次的数字。±----------------+| ConsecutiveNums |±----------------+|

2020-07-31 11:47:21 1061

原创 关于hive的介绍和使用

对hive的简介和理解在公司,基本上大部分的查询都是在hive上进行的。基于自己天天和hive打交道,有感而发,所以有了想写这篇文章的意愿。如果用一句话来解释hive是什么和能做什么,那就是:hive是基于Hadoop的一个数据仓库。因此,要理解hive,就要先去了解Hadoop和它相关的MapReduce,以及数据仓库。对于Hadoop和MapReduce,读者可以先去网上查一下。对于数据仓库的理解,我之前写了一篇关于数据仓库的文章,读者也可以去看一下。具体而言,hive就是在Hadoop上架了一层

2020-07-30 10:23:18 2112 2

原创 一对多关联导致数据发散的SQL优化经验

工作中会经常写SQL,而且工作中查询的数据量,一般都是几百万,甚至几亿的数据量。如果自己的SQL写的很烂,就可能导致查询了很久也不会跑出结果来。而我在工作中写SQL经常遇见的一个问题就是一对多关联导致数据发散。因此,这篇文章,主要记录一对多关联导致数据发散的应对方案。多表关联优化的例子我之前写了一个SQL,运行了一个多小时,也没有运行出来。下面我列出这个SQL的逻辑:SELECT t1.active_date, t1.platform_name, t1.type, COUNT(DISTINCT t1.u

2020-07-27 10:25:15 10120 2

原创 关于数据仓库的一点思考

之前在工作中参与了公司一个细分业务的宽表和数据仓库的建设,对数仓和宽表有了进一步的理解。其实,现在已经有很多不错的关于数据仓库的文章,这里我先贴两个写的不错的关于数仓的文章:链接: [link(https://mp.weixin.qq.com/s/Sz9NNJPpzoh6L4ZSzOH7Gg)....

2020-07-22 22:29:25 3075 1

原创 工作中涉及的有用的SQL表达式

工作中涉及的有用的SQL表达式这边文章新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;全新的 KaTeX数学公式 语法;增加了支持甘特图的mermaid语法1 功能;增加了 多屏幕编辑 M

2020-07-21 16:29:43 2122 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除