自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 统计学—基础理论

统计学—基础理论1. 描述统计1.1 统计分析的目的分析过去的规律,总结过去变化的原因,从而达到预测未来的目的。为了实现目的,主要的统计学手段:描述性统计:利用表格、图形或者数值(数值特征)来展示和刻画数据中的信息;推断性统计:利用样本获得的数据对总体的性质进行估计或者检验。总体的性质通常用概率模型刻画。1.2 统计学本质总体的样本数量过高,无法分析到每一个个体,为了了解全体调查对象的倾向,需要以抽样的方式统计性地抽取一部分调查对象,然后根据样本中所包含的信息对总体的状况进行估计和推算。为了使

2023-01-16 22:56:38 213

原创 神策-神策中的营销学

神策-神策中的营销学后面的更新多分享一些理论思路的相关笔记,技术门槛低。人人都能读,希望人人都能懂,人人进步。今天开始分享一下神策的概念。1. 概述通过神策数据分析来解决前端业务问题。站在企业的角度,前端业务是面向市场,面向消费者,如产品经理,内容运营(一般都是利润单元);后端是企业面向技术开发,财务部等(一般是成本单元)。企业对前端业务部门的期望都是多挣钱,通过神策工具,来分析用户行为数据,能让前端业务部门更好的为企业挣钱。神策工具主要是面向数据分析师,如今比较常见的数据分析师分为以下三类:数据

2022-12-26 23:09:24 273

原创 Hive-偏移/排序窗口函数&随机抽样

Hive-偏移/排序窗口函数&随机抽样1. 偏移函数偏移函数备注LEAD(col,n,DEFAULT)用于统计窗口内往下第n行值 从当前行下移几行的值(最后一行取值为null)LAG(col,n,DEFAULT)用于统计窗口内往上第n行值 从当前行上移几行的值(第一行取值为null)first_value(col, DEFAULT)取分组内排序后,截止到当前行,第一个值last_value(col, DEFAULT)取分组内排序后,截止到当前行,最后一

2022-11-28 22:42:59 958

原创 HIVE-窗口字句

Hive - 窗口函数Hive的窗口函数用法基本和SQL一致,不过为了加强印象,还是在再归纳一下hive的窗口函数1. 窗口函数语法结构Group by 普通聚合函数每组只有一条记录,简单来说返回的行数以group by后面的分类为准,一般搭配的聚合函数sum,avg,max,min等;而窗口函数则可以为窗口中的每行都返回一个值。 普通聚合函数聚合的行集是组,开窗函数聚合的行集是窗口。窗口函数语法结构:聚合函数+ over (partition by [] order by [] asc/de

2022-11-27 19:04:41 525

原创 学习笔记-Hive select结构

学习笔记-Hive select结构更多内容移步公众号:1. Select语句结构SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][HAVING having_condition][CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BY col_list]

2022-11-20 19:40:58 992

原创 Hive -分区&分桶

Hive -分区&分桶1. 分区表1.1 分区表的意义避免hive全表扫描,提升查询效率;减少数据冗余进而提高特定(指定分区)查询分析的效率;在逻辑上分区表与未分区表没有区别,在物理上分区表会将数据按照分区键的列值存储在表目录的 子目录中,目录名为“分区键=键值”;查询时尽量利用分区字段。如果不使用分区字段,就会全部扫描。1.2 分区表类型静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断create table emp_partition(em

2022-11-06 19:32:17 1190

原创 【Hive】Hive 创建表

学习笔记—Hive创建表1. Hive语句的特点HQL 语言大小写不敏感,但内容分大小写(where ,if/ case when,如:数据表内容某人名叫Tom,则条件后不能写tom,HDFS 路径名(NameNode)分大小写) ;HQL 可以写在一行或者多行, 关键字不能被缩写也不能分行,同 SQL;各子句一般要分行写, 使用缩进提高语句的可读性,为了美化,同SQL;-- 为注释符号 ;Hive 不存储数据,他是表到HDFS文件的映射关系(语句);2. DDL2.1 Hive的数据库DD

2022-10-16 22:29:01 17957 1

原创 【Excel】跨行排序

今天分享Excel的小技巧:如何进行跨行排序。原数据如下:序号房产面积3号101室87.573号101室小计3号105室77.213号105室小计3号204室90.763号204室小计3号205室77.473号205室小计3号206室98.253号206室小计......用Excel进行排序,但不包含小计列最终格式为:序号房产面积13号101室8

2022-10-15 18:52:56 1599

原创 学习笔记 - Hadoop-Hive 介绍

学习笔记 - Hadoop-Hive 介绍1 背景当前用户数据都是以“亿”为单位进行考量,传统数据库无法满足快速增长的海量数据存储需求,其计算和处理能力也大大不足。数据仓库有分布式存储与处理能力,将各种数据源整合集成到统一的数据中心,防止数据在传递过程中格式参差不齐,解决数据壁垒。常见的数据仓库产品如下:后面的学习主要还是围绕Hadoop生态圈-hive。数据量越大,其价值力度越低,要从海量的数据中挖掘出有效信息,正是数据分析师的价值所在。2 Hadoop2.1 分布式存储HDFS作用:将文件

2022-10-10 22:49:26 739

原创 【番外篇】Excel:一行转多行

【番外篇】Excel:一行转多行国庆开始卷,更新关于Excel的小技巧:一行转多行,也是在公司遇到关于一个Excel的案例,需求如下:原数据:需求:要将第二列数据转换为以下一一对应的多行操作步骤如下:1. 数据→自表格/区域2 Power Query 编辑器点击需要拆分的行,在主页中点击‘’拆分列‘’;拆分标准:换行符3. 数据导出选择左上角的“关闭并上载”;可以选择导出到一个新的sheet,也可以自定义,最终得到想要的格式。4. 一列转多列一列转多列的工作场景也不

2022-10-10 21:47:49 2261

原创 学习笔记 - 大数据导论

1 数据仓库1.1 数据仓库(Data Warehouse)简称DW。数据仓库顾名思义,是⼀个很⼤的数据存储集合,出于企业的 分析性报告和决策支持⽬的而创建,对多样的业务数据进⾏筛选与整合。它为企业提供⼀定的BI(商业 智能)能力,指导业务流程改进。1.2 数据集市(Data Mart)由于数据仓库规模大、周期长,⼀些规模比较小的企业⽤户难以承担。因此,作为快速解决企业当前存在的 实际问题的⼀种有效⽅法,独⽴型数据集市成为⼀种既成事实。1.3 数据仓库解决的问题从⼤的⽅向来说解决三类问题 存储,

2022-09-26 20:51:05 813

原创 MySql 练习- 留存率计算

MySql 练习- 留存率计算最近开始每天抽空刷几道MySQL的题,还是要多实战练练,不然容易忘。今天分享一道MySQL里面的留存率计算数据源:question_practice_detailiddevice_idquest_idresultdate12138111wrong5/3/202123214112wrong5/9/202133214113wrong6/15/202146543111right8/13/20215

2022-08-18 16:13:43 2011 1

原创 学习笔记 - 留存率

留存通俗来讲就是回头客,用户第一次体验了产品之后,是否有第二次,第三次,第n次重复使用和体验,是数据分析笔试中几乎必考的计算指标。

2022-08-09 21:00:58 220

原创 学习笔记—Tableau初认识

本篇会初步介绍一下tableau,关于tableau在BI工具产品中的地位应该是无人出其右。

2022-06-02 16:39:28 463

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除