自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据仓库:详解维度建模之事实表

每个数据仓库都包含一个或者多个事实数据表。其中可能包含业务销售数据,如现金登记事务所产生的数据,通常包含大量的行。事实数据表的主要特点是包含数字数据(事实),并且这些数字信息可以汇总,以提供有关单位作为历史的数据,每个事实数据表包含一个由多个部分组成的索引,该索引包含作为外键的相关性维度表的主键,而维度表包含事实记录的特性。

2023-02-02 14:41:18 834

原创 数据倾斜汇总

一、hive数据倾斜1、可能会触发Hive数据倾斜的几种情况: 1)join: (1)分发到某一个或几个reduce上的数据远高于平均值(其中一个表较小,但是key集中); (2)存在大量空值都有一个reduce处理(大表与小表,但是分桶的判断字段空值或0值过多); 2)group by: (1)处理某个值的reduce非常耗时(group by维度过小,处理的数量过多); 3)...

2021-04-01 19:33:21 232

原创 大数据常见面试题及答案

大数据常见面试题及答案,大部分都有涉及

2021-03-25 18:45:45 26700 2

转载 git配置及使用教程

git配置及使用教程:http://www.imooc.com/article/20411

2020-11-17 17:39:41 169

原创 spark

1-1 Spark简介Spark的含义:是一个快速且通用的集群计算平台Spark的特点: spark是快速的 Spark扩充了流行的Mapreduce计算模型 Spark是基于内存的计算 spark是通用的 容纳了其他分布式系统拥有的功能:批处理、迭代式计算、交互查询和流处理,方便维护 优点:降低了维护成本 spark是高度开放的 提供了python、java、scala、SQL的API和丰富的内置库

2020-11-02 15:32:23 208

原创 MySql知识总结——表结构修改、查看表信息等

mysql表增加字段和删除字段1)增加或删除单个字段:(1)增加一个字段格式:alter table table_name add [column] col_name 列定义 [first|after 列名];例如:alter table test_table add name varchar(32) default null comment '姓名' after id;...

2018-10-23 18:00:12 157

原创 hive各种问题总结

 一、hive表相关操作需要注意的是:column alter仅仅修改table的元数据(表结构),而不会修改数据。1、修改表名ALTER TABLE table_name RENAME TO new_table_name;2、增加、修改列1)增加列ALTER TABLE name ADD COLUMNS (column_name1 column_type [...

2018-08-16 15:59:21 422

原创 Hive常用参数配置优化详细记录

      hive通过将查询划分成一个或多个MapReduce任务达到并行处理的目的。每个任务都可能具有多个mapper和reducer任务,其中至少有一些是可以并行执行的。确定最佳的mapper个数和reducer个数取决于多个变量,例如输入的数据量大小以及对这些数据执行的操作类型等。  保持平衡性是很有必要的,对于Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾...

2018-06-27 17:55:15 1769

原创 Hive高级聚合之GROUPING SETS/ROLLUP/CUBE/Grouping_ID

1、GROUPING SETS该关键字可以实现同一数据集的多重group by操作。事实上GROUPING SETS是多个GROUP BY进行UNION ALL操作的简单表达,它仅仅使用一个stage完成这些操作。GROUPING SETS的子句中如果包含()数据集,则表示整体聚合。示例:select name, work_space[0] as main_place, count(employe...

2018-05-22 19:24:28 1657

原创 在notepad++中直接运行python代码

1.安装python不再详细介绍2.配置notepad++1)Notepad++ ->"运行"菜单->"运行"按钮2)在弹出的窗口内输入以下命令:cmd /k python "$(FULL_CURRENT_PATH)" & ECHO. & PAUSE & EXIT红色标注部分为python程序源文件的路径。然后点击“保存”,随意取一个名字,比如“Run Pyth...

2018-05-16 15:23:53 2945

转载 python初级教程:入门详解

https://www.crifan.com/files/doc/docbook/python_beginner_tutorial/release/htmls/index.html

2018-05-15 16:31:32 200

原创 开发过程中linux常用命令总结

 持续更新中。。。1.用xshell在Windows与Linux间传输文件。rz,sz是Linux/Unix同Windows进行ZModem文件传输的命令行工具。如果未安装请先安装,安装命令:yum install lrzsz1)从服务端发送文件到客户端:命令:sz [参数] filename常用参数:-a 以文本方式传输(ascii)。-b 以二进制方式...

2018-05-09 12:01:27 220

win10环境下hadoop-3.2.1编译后的源码包及编译所需工具

win10环境下hadoop-3.2.1编译后的源码包,以及win10环境编译所使用的软件及工具,hadoop-3.2.1-src.tar.gz、protobuf-2.5.0.zip和protoc-2.5.0-win32.zip、zlib-1.2.5.tar.gz、cmake-3.18.4-win64-x64.zip、Git-2.26.0-64-bit.exe Visual_Studio_2010_professional下载地址如下: 链接:https://pan.baidu.com/s/17ecFblYZ8u6KQBhpJ_YSew 提取码:8866

2020-11-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除