国家级睡觉型选手-CSDN博客

原创如何用SQL统计用户复购（or留存）数据

在工作中，如果涉及到用户交易的数据，我们可能会经常统计每天的新户（用户在当日首次完成交易）交易用户数、新户在次日、T+n日、次周、下下周、在自然月当月、在下月、在下下月等不同的时间周期内的复购数据。用户在首次交易的日期之后的第n天，再次发生了交易行为，我们称之为用户在第n天的复购。其实，用户在第n天产生了复购行为，也就是用户在第n天之后还是留存的。复购和留存的意思是一样的。这些统计数据其实是非常常见的，所以我在这些常见的复购统计情况做个总结。在这之前，需要先了解一些常见的SQL函数。统计复购数据涉及的

2020-08-13 19:08:13 5427 4

原创 tableau在数据分析中的作用

最近半年，为了提高数据分析的效率和降低人力资源，公司开始引入tableau工具。tableau本质上是进行数据可视化和数据分析的商业智能BI工具。引入tableau的目标公司引入tableau的目标，主要是基于想借助tableau的BI探索分析能力，将探索性的数据分析需求转移给业务侧的产品or运营等同事自行探索，达到释放数据开发人力的目的。具体来说，我们已经有汇总数据，以及常用的维度指标数据的报表平台，但是当业务同事发现汇总报表的某个指标有异常，一般而言是会找我们数据开发人员定位问题的原因。引入tab

2021-01-04 20:04:16 1726

原创数据从业人员对“跳出提数工具”的一点思考

还差半个月，我就入职满1年了。回想这一年，从一开始的生疏，到现在对各种需求的游刃有余，自己也算成长了很多吧。我很庆幸自己进入了一个很好的团队，同时也有一个很好的导师带我。我上周在写转正总结的时候，总结了一下自己这快一年来做的事情，无非是：提数需求、报表开发、数提开发、日报推送、数据异常排查和原因定位、宽表建设等。其中，来自业务方的提数需求，应该占据了我日常需求的半壁江山吧。我的工作内容和业务息息相关，工作中我所用到的技术栈不是很多，但是却经常需要和开发、前端和产品等各方人员对逻辑。老实说，和他们的沟通过

2020-10-15 18:51:22 1125 4

原创运营中的数据分析

作为一名数据从业人员，从日常的工作需求和思考中，我愈发认为：数据分析的基本方法是统计，核心是业务理解和逻辑推理。为了能更全面地介绍数据分析，这篇文章我将从：什么是数据分析、数据分析的基本步骤、数据分析的误区和构建指标监控体系的必要性这四个方面展开。1.什么是数据分析？如果用一句话概括什么是数据分析，在我看来，就是：数据分析是用适当的统计分析方法，对收集来的大量数据进行分析，提取有用信息和形成结论的过程。一个完整的数据分析体系应该是如下图所示：完整的分析体系内容报告类型层级发

2020-09-25 17:25:40 811

原创谈一谈spark SQL的调优经验

什么是spark SQLSQL是一种结构化的数据库查询语言。而spark SQL是spark套件中的一个组件，它将数据的计算任务通过SQL的形式转换成了RDD的计算，类似于hive通过SQL的形式将数据的计算任务转换成了MapReduce。通常来说Hadoop是一整套大数据解决方案，包括了存储（HDFS）、计算（MapReduce）和资源调度管理（Yarn）。hive是Hadoop生态发展起来的一个数据仓库，可以使用hive SQL实现MR，并且将HDFS映射成表。而spark是基于内存计算的大数据并行

2020-09-02 16:53:19 465

原创工作中对数据分析思路的一点思考

工作中，经常会遇到产品、运营等各方人员对某个数据的疑问，或者各种各样的数据需求和数据问题。对于数据从业者，我越来越意识到我们不仅仅需要掌握必要的编程基础和专业知识，也需要掌握一些常见的数据分析思路，进而提高自己的数据敏感度。以下内容是自己在工作中总结出来的一些数据分析思路。解决数据问题的通用框架通常，解决数据问题可以分为以下五步进行：1、明确目标1.1明确分析对象：确定分析对象，定义该对象，确定该对象的衡量标准；1.2明确分析目的：为什么分析它？是否有更本质的问题？它的目标受众是什么？它的最终受益

2020-08-24 11:35:49 1434

原创 leetcode之连续子数组的最大乘积

题目：给你一个整数数组 nums ，请你找出数组中乘积最大的连续子数组（该子数组中至少包含一个数字），并返回该子数组所对应的乘积。示例 1:输入: [2,3,-2,4]输出: 6解释: 子数组 [2,3] 有最大乘积 6。示例 2:输入: [-2,0,-1]输出: 0解释: 结果不能为 2, 因为 [-2,-1] 不是子数组。思路：求乘积的最大值，示例中告诉我们，由于负数的出现，一个正数乘以负数就变成了负数，即：最大值乘以负数就变成了最小值；同理，最小值乘以负数，也可能变成最大值。最大

2020-08-17 10:49:55 1509

原创 leetcode之最长的回文子串

题目：给定一个字符串 s，找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。示例 1：输入: “babad”输出: “bab”注意: “aba” 也是一个有效答案。示例 2：输入: “cbbd”输出: “bb”思路：中心扩散法——遍历每一个索引，以这个索引为中心，利用“回文串”中心对称的特点，往两边扩散，看最多能扩散多远。在这里需要注意一个细节：回文串在长度为奇数和偶数的时候，“回文中心”的形式是不一样的。1、奇数回文串的“中心”是一个具体的字符，例如：回文串“aba”

2020-08-10 11:31:01 161

原创 hbase的介绍和数据结构

HBase是什么？首先来看HBASE的官方定义：“Apache Hbase is the Hadoop database,a distributed,scalable,big data store, Hbase is a type of ‘NoSQL’ database"，这句话翻译过来的意思就是：Apache HBASE是基于Hadoop的”nosql“数据库，而且它还是分布式的、可拓展的大数据存储。从而我们也知道了，HBASE能存储海量数据的原因，在于HBASE是在Hadoop和与之关联的HDFS上搭

2020-08-03 17:20:42 1903

原创 leetcode之动态规划系列1

1、输入一个整型数组，数组里有正数也有负数。数组中的一个或连续多个整数组成一个子数组。求所有子数组的和的最大值。要求时间复杂度为O(n)。示例1:输入: nums = [-2,1,-3,4,-1,2,1,-5,4]输出: 6解释: 连续子数组 [4,-1,2,1] 的和最大，为 6。思路：该题可以用动态规划的方法求解。状态定义：设动态规划列表dp，dp[i]代表元素nums[i]为结尾的连续子数组的最大和；转移方程：若dp[i-1]<=0,说明dp[i-1]对dp[i]产生负贡献，即

2020-07-31 17:01:47 230

原创 leetcode刷题之MySQL系列

1、编写一个 SQL 查询，查找所有至少连续出现三次的数字。±—±----+| Id | Num |±—±----+| 1 | 1 || 2 | 1 || 3 | 1 || 4 | 2 || 5 | 1 || 6 | 2 || 7 | 2 |±—±----+例如，给定上面的 Logs 表， 1 是唯一连续出现至少三次的数字。±----------------+| ConsecutiveNums |±----------------+|

2020-07-31 11:47:21 1061

原创关于hive的介绍和使用

对hive的简介和理解在公司，基本上大部分的查询都是在hive上进行的。基于自己天天和hive打交道，有感而发，所以有了想写这篇文章的意愿。如果用一句话来解释hive是什么和能做什么，那就是：hive是基于Hadoop的一个数据仓库。因此，要理解hive，就要先去了解Hadoop和它相关的MapReduce，以及数据仓库。对于Hadoop和MapReduce，读者可以先去网上查一下。对于数据仓库的理解，我之前写了一篇关于数据仓库的文章，读者也可以去看一下。具体而言，hive就是在Hadoop上架了一层

2020-07-30 10:23:18 2112 2

原创一对多关联导致数据发散的SQL优化经验

工作中会经常写SQL，而且工作中查询的数据量，一般都是几百万，甚至几亿的数据量。如果自己的SQL写的很烂，就可能导致查询了很久也不会跑出结果来。而我在工作中写SQL经常遇见的一个问题就是一对多关联导致数据发散。因此，这篇文章，主要记录一对多关联导致数据发散的应对方案。多表关联优化的例子我之前写了一个SQL，运行了一个多小时，也没有运行出来。下面我列出这个SQL的逻辑：SELECT t1.active_date, t1.platform_name, t1.type, COUNT(DISTINCT t1.u

2020-07-27 10:25:15 10120 2

原创关于数据仓库的一点思考

之前在工作中参与了公司一个细分业务的宽表和数据仓库的建设，对数仓和宽表有了进一步的理解。其实，现在已经有很多不错的关于数据仓库的文章，这里我先贴两个写的不错的关于数仓的文章：链接: [link(https://mp.weixin.qq.com/s/Sz9NNJPpzoh6L4ZSzOH7Gg)....

2020-07-22 22:29:25 3075 1

原创工作中涉及的有用的SQL表达式

工作中涉及的有用的SQL表达式这边文章新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式进行展示；增加了图片拖拽功能，你可以将本地的图片直接拖拽到编辑区域直接展示；全新的 KaTeX数学公式语法；增加了支持甘特图的mermaid语法1 功能；增加了多屏幕编辑 M

2020-07-21 16:29:43 2122 3

Monica114的博客