- 博客(12)
- 资源 (1)
- 收藏
- 关注
原创 数据仓库:详解维度建模之事实表
每个数据仓库都包含一个或者多个事实数据表。其中可能包含业务销售数据,如现金登记事务所产生的数据,通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。
2023-02-02 14:41:18
834
原创 数据倾斜汇总
一、hive数据倾斜1、可能会触发Hive数据倾斜的几种情况: 1)join: (1)分发到某一个或几个reduce上的数据远高于平均值(其中一个表较小,但是key集中); (2)存在大量空值都有一个reduce处理(大表与小表,但是分桶的判断字段空值或0值过多); 2)group by: (1)处理某个值的reduce非常耗时(group by维度过小,处理的数量过多); 3)...
2021-04-01 19:33:21
232
原创 spark
1-1 Spark简介Spark的含义:是一个快速且通用的集群计算平台Spark的特点: spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基于内存的计算 spark是通用的 容纳了其他分布式系统拥有的功能:批处理、迭代式计算、交互查询和流处理,方便维护 优点:降低了维护成本 spark是高度开放的 提供了python、java、scala、SQL的API和丰富的内置库
2020-11-02 15:32:23
208
原创 MySql知识总结——表结构修改、查看表信息等
mysql表增加字段和删除字段1)增加或删除单个字段:(1)增加一个字段格式:alter table table_name add [column] col_name 列定义 [first|after 列名];例如:alter table test_table add name varchar(32) default null comment '姓名' after id;...
2018-10-23 18:00:12
157
原创 hive各种问题总结
一、hive表相关操作需要注意的是:column alter仅仅修改table的元数据(表结构),而不会修改数据。1、修改表名ALTER TABLE table_name RENAME TO new_table_name;2、增加、修改列1)增加列ALTER TABLE name ADD COLUMNS (column_name1 column_type [...
2018-08-16 15:59:21
422
原创 Hive常用参数配置优化详细记录
hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。 保持平衡性是很有必要的,对于Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾...
2018-06-27 17:55:15
1769
原创 Hive高级聚合之GROUPING SETS/ROLLUP/CUBE/Grouping_ID
1、GROUPING SETS该关键字可以实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅仅使用一个stage完成这些操作。GROUPING SETS的子句中如果包含()数据集,则表示整体聚合。示例:select name, work_space[0] as main_place, count(employe...
2018-05-22 19:24:28
1657
原创 在notepad++中直接运行python代码
1.安装python不再详细介绍2.配置notepad++1)Notepad++ ->"运行"菜单->"运行"按钮2)在弹出的窗口内输入以下命令:cmd /k python "$(FULL_CURRENT_PATH)" & ECHO. & PAUSE & EXIT红色标注部分为python程序源文件的路径。然后点击“保存”,随意取一个名字,比如“Run Pyth...
2018-05-16 15:23:53
2945
转载 python初级教程:入门详解
https://www.crifan.com/files/doc/docbook/python_beginner_tutorial/release/htmls/index.html
2018-05-15 16:31:32
200
原创 开发过程中linux常用命令总结
持续更新中。。。1.用xshell在Windows与Linux间传输文件。rz,sz是Linux/Unix同Windows进行ZModem文件传输的命令行工具。如果未安装请先安装,安装命令:yum install lrzsz1)从服务端发送文件到客户端:命令:sz [参数] filename常用参数:-a 以文本方式传输(ascii)。-b 以二进制方式...
2018-05-09 12:01:27
220
win10环境下hadoop-3.2.1编译后的源码包及编译所需工具
2020-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人