天秤焕妍-CSDN博客

原创 linux之find详解：快速查找文件应用

0.查看文件详情[root@master ~]# stat /usr/share/vim/vim74/syntax/syntax.vim File: ‘/usr/share/vim/vim74/syntax/syntax.vim’ Size: 1228 Blocks: 8 IO Block: 4096 regular fileDevice: fd0...

2018-12-20 17:52:18 491

原创基于eclipse工具使用 JDBC 连接 Hive

1.启动hadoop集群[hadoop@master ~]$ start-all.sh 2.启动元数据metastore[hadoop@master ~]$ hive --service metastoreStarting Hive Metastore Server18/12/19 14:48:55 WARN conf.HiveConf: HiveConf of name...

2018-12-20 11:46:17 860

原创 oracle如何将以固定分隔符(逗号)分隔的多行字符串拆分为多行（表生成）

--将多行字符串拆分with p as --构建数据临时表 (select 1 as id, 'aa,bb,cc,dd,ee' as split_string, 1 as num from dual union all select 2, 'ff,gg,hh,ii,jj,kk', 3 from dual union all select 3, 'aa,bb,...

2018-12-19 09:57:21 2909

原创 hive的streaming:an error occurred when trying to close the Operator running your custom script.

在对hive 进行 select 查询的时候我们可以编写 python 、php 、perl等脚本来进行相应的数据处理，我们要用到hive 的 transform 和 using。在使用的时候容易报如图所示的错误：an error occurred when trying to close the Operator running your custom script.hive...

2018-12-14 14:29:36 3117

转载数据仓库(六)之数据质量篇

概述数据质量的高低代表了该数据满足数据消费者期望的程度，这种程度基于他们对数据的使用预期。数据质量必须是可测量的，把测量的结果转化为可以理解的和可重复的数字，使我们能够在不同对象之间和跨越不同时间进行比较。 数据质量管理是通过计划、实施和控制活动，运用质量管理技术度量、评估、改进和保证数据...

2018-12-13 15:48:31 365

转载数据仓库(五)元数据管理

概述元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构，操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期，使用元数据驱动数据仓库的开发，使数据仓库自动化，可视化。  元数据类型         &nbsp...

2018-12-13 15:47:05 280

转载数据仓库(四)之ETL开发

概述 ETL是数据仓库的后台，主要包含抽取、清洗、规范化、提交四个步骤，传统数据仓库一般分为四层模型。&nbsp;&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;

2018-12-13 15:45:48 303

转载数据仓库(三)之架构篇

概述架构是数据仓库建设的总体规划，从整体视角描述了解决方案的高层模型，描述了各个子系统的功能以及关系，描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么，架构就是回答怎么做的问题。架构的价值             &...

2018-12-13 15:44:17 211

转载数据仓库(二)之维度建模篇

概述维度建模是一种将数据结构化的逻辑设计方法，它将客观世界划分为度量和上下文。度量是常常是以数值形式出现，事实周围有上下文包围着，这种上下文被直观地分成独立的逻辑块，称之为维度。它与实体-关系建模有很大的区别，实体-关系建模是面向应用，遵循第三范式，以消除数据冗余为目标的设计技术。维度建模是面向分析...

2018-12-13 15:43:11 461

转载数据仓库(一)之需求篇

概述 &amp;amp;nbsp;业务需求定义了企业的业务人员为了完成其工作，进而实现企业目标，一定要具备的东西。包括功能性需求和提供的服务。它是数据仓库的核心，从广度和深度上做好需求调研为数据仓库建设建立良好的开端。&amp;amp;nbsp; &amp;amp;nbsp; &amp;amp;nbsp; &amp;

2018-12-13 15:41:24 360

原创 Centos 7.5安装eclipse

1.查看系统版本号和内核版本信息#查看系统版本号cat /etc/redhat-release#查看系统内核信息uname -a 运行结果： 2. 下载eclipse软件下载地址：https://www.eclipse.org/downloads/packages/release/Luna/SR2ps:1.下载与操作系统版本对应的Eclipse软...

2018-12-12 18:24:06 380

原创 oracle:查看被锁表相关信息

在具有dba权限用户进行执行以下语句： 1.查看被锁的表：SELECT t.session_id as sid, t2.serial#, t.locked_mode, t.oracle_username, t.os_user_name, t2.machine, t2.terminal, ...

2018-12-10 15:32:26 228

原创 hive数据倾斜

hive数据倾斜定义：key分布不均匀导致分发到不同的reduce上个别reduce任务特别重导致其他reduce都完成而这些个别的reduce迟迟不完成原因：1.key分布不均匀2.map端数据倾斜输入文件太多且大小不一3.reduce端数据倾斜分区器问题解决方案：1.调解hive配置参数1)设置hive.map.aggr = true map端部分聚合相当于...

2018-12-08 10:16:30 140

原创 sql第N工资问题: leetcode 177. Nth Highest Salary

leetcode链接：https://leetcode.com/problems/nth-highest-salary/mysql解法：CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INTBEGIN RETURN ( # Write your MySQL query statement below. se...

2018-12-06 17:09:57 193

原创 bash词频统计：leetcode 192. Word Frequency

leetcode链接：https://leetcode.com/problems/word-frequency/ cat words.txt|tr -cs "[a-z][A-Z]" "\n"|sort|uniq -c|sort -k 1 -r|awk {'print $2,$1'} 步骤详解：cat：读取文本|：管道tr:将每个词按行显示sort:排序uniq:...

2018-12-06 16:25:44 113

原创 oracle11g 自动创建分区年/月/日/周

oracle11g 自动创建分区年/月/日/周–建表时创建自动分区CREAT TABLE TABLE1(TABLE_ID NUMBER(8),SUB_DATE DATE,VALUE NUMBER(8))PARTITION BY RANGE(SUB_DATE)INTERVAL(NUMTOYMINTERVAL(1,‘MONTH’))–按月分区(PARTITION P1 VALU...

2018-12-04 15:49:03 358

天秤焕妍