大数据
国家级睡觉型选手
吃好睡好 长生不老
展开
-
数据从业人员对“跳出提数工具”的一点思考
还差半个月,我就入职满1年了。回想这一年,从一开始的生疏,到现在对各种需求的游刃有余,自己也算成长了很多吧。我很庆幸自己进入了一个很好的团队,同时也有一个很好的导师带我。我上周在写转正总结的时候,总结了一下自己这快一年来做的事情,无非是:提数需求、报表开发、数提开发、日报推送、数据异常排查和原因定位、宽表建设等。其中,来自业务方的提数需求,应该占据了我日常需求的半壁江山吧。我的工作内容和业务息息相关,工作中我所用到的技术栈不是很多,但是却经常需要和开发、前端和产品等各方人员对逻辑。老实说,和他们的沟通过原创 2020-10-15 18:51:22 · 1182 阅读 · 4 评论 -
运营中的数据分析
作为一名数据从业人员,从日常的工作需求和思考中,我愈发认为:数据分析的基本方法是统计,核心是业务理解和逻辑推理。为了能更全面地介绍数据分析,这篇文章我将从:什么是数据分析、数据分析的基本步骤、数据分析的误区和构建指标监控体系的必要性这四个方面展开。1.什么是数据分析?如果用一句话概括什么是数据分析,在我看来,就是:数据分析是用适当的统计分析方法,对收集来的大量数据进行分析,提取有用信息和形成结论的过程。一个完整的数据分析体系应该是如下图所示:完整的分析体系内容报告类型层级发原创 2020-09-25 17:25:40 · 891 阅读 · 0 评论 -
谈一谈spark SQL的调优经验
什么是spark SQLSQL是一种结构化的数据库查询语言。而spark SQL是spark套件中的一个组件,它将数据的计算任务通过SQL的形式转换成了RDD的计算,类似于hive通过SQL的形式将数据的计算任务转换成了MapReduce。通常来说Hadoop是一整套大数据解决方案,包括了存储(HDFS)、计算(MapReduce)和资源调度管理(Yarn)。hive是Hadoop生态发展起来的一个数据仓库,可以使用hive SQL实现MR,并且将HDFS映射成表。而spark是基于内存计算的大数据并行原创 2020-09-02 16:53:19 · 511 阅读 · 0 评论 -
工作中对数据分析思路的一点思考
工作中,经常会遇到产品、运营等各方人员对某个数据的疑问,或者各种各样的数据需求和数据问题。对于数据从业者,我越来越意识到我们不仅仅需要掌握必要的编程基础和专业知识,也需要掌握一些常见的数据分析思路,进而提高自己的数据敏感度。以下内容是自己在工作中总结出来的一些数据分析思路。解决数据问题的通用框架通常,解决数据问题可以分为以下五步进行:1、明确目标1.1明确分析对象:确定分析对象,定义该对象,确定该对象的衡量标准;1.2明确分析目的:为什么分析它?是否有更本质的问题?它的目标受众是什么?它的最终受益原创 2020-08-24 11:35:49 · 1478 阅读 · 0 评论 -
如何用SQL统计用户复购(or留存)数据
在工作中,如果涉及到用户交易的数据,我们可能会经常统计每天的新户(用户在当日首次完成交易)交易用户数、新户在次日、T+n日、次周、下下周、在自然月当月、在下月、在下下月等不同的时间周期内的复购数据。用户在首次交易的日期之后的第n天,再次发生了交易行为,我们称之为用户在第n天的复购。其实,用户在第n天产生了复购行为,也就是用户在第n天之后还是留存的。复购和留存的意思是一样的。这些统计数据其实是非常常见的,所以我在这些常见的复购统计情况做个总结。在这之前,需要先了解一些常见的SQL函数。统计复购数据涉及的原创 2020-08-13 19:08:13 · 5722 阅读 · 4 评论 -
hbase的介绍和数据结构
HBase是什么?首先来看HBASE的官方定义:“Apache Hbase is the Hadoop database,a distributed,scalable,big data store, Hbase is a type of ‘NoSQL’ database",这句话翻译过来的意思就是:Apache HBASE是基于Hadoop的”nosql“数据库,而且它还是分布式的、可拓展的大数据存储。从而我们也知道了,HBASE能存储海量数据的原因,在于HBASE是在Hadoop和与之关联的HDFS上搭原创 2020-08-03 17:20:42 · 1965 阅读 · 0 评论 -
关于hive的介绍和使用
对hive的简介和理解在公司,基本上大部分的查询都是在hive上进行的。基于自己天天和hive打交道,有感而发,所以有了想写这篇文章的意愿。如果用一句话来解释hive是什么和能做什么,那就是:hive是基于Hadoop的一个数据仓库。因此,要理解hive,就要先去了解Hadoop和它相关的MapReduce,以及数据仓库。对于Hadoop和MapReduce,读者可以先去网上查一下。对于数据仓库的理解,我之前写了一篇关于数据仓库的文章,读者也可以去看一下。具体而言,hive就是在Hadoop上架了一层原创 2020-07-30 10:23:18 · 2173 阅读 · 2 评论 -
工作中涉及的有用的SQL表达式
工作中涉及的有用的SQL表达式这边文章新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;全新的 KaTeX数学公式 语法;增加了支持甘特图的mermaid语法1 功能;增加了 多屏幕编辑 M原创 2020-07-21 16:29:43 · 2190 阅读 · 3 评论 -
关于数据仓库的一点思考
之前在工作中参与了公司一个细分业务的宽表和数据仓库的建设,对数仓和宽表有了进一步的理解。其实,现在已经有很多不错的关于数据仓库的文章,这里我先贴两个写的不错的关于数仓的文章:链接: [link(https://mp.weixin.qq.com/s/Sz9NNJPpzoh6L4ZSzOH7Gg)....原创 2020-07-22 22:29:25 · 3176 阅读 · 1 评论 -
一对多关联导致数据发散的SQL优化经验
工作中会经常写SQL,而且工作中查询的数据量,一般都是几百万,甚至几亿的数据量。如果自己的SQL写的很烂,就可能导致查询了很久也不会跑出结果来。而我在工作中写SQL经常遇见的一个问题就是一对多关联导致数据发散。因此,这篇文章,主要记录一对多关联导致数据发散的应对方案。多表关联优化的例子我之前写了一个SQL,运行了一个多小时,也没有运行出来。下面我列出这个SQL的逻辑:SELECT t1.active_date, t1.platform_name, t1.type, COUNT(DISTINCT t1.u原创 2020-07-27 10:25:15 · 10761 阅读 · 2 评论