自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

天秤焕妍

时尚的程序媛~~

  • 博客(16)
  • 收藏
  • 关注

原创 linux之find详解:快速查找文件应用

0.查看文件详情[root@master ~]# stat /usr/share/vim/vim74/syntax/syntax.vim File: ‘/usr/share/vim/vim74/syntax/syntax.vim’ Size: 1228 Blocks: 8 IO Block: 4096 regular fileDevice: fd0...

2018-12-20 17:52:18 491

原创 基于eclipse工具使用 JDBC 连接 Hive

 1.启动hadoop集群[hadoop@master ~]$ start-all.sh  2.启动元数据metastore[hadoop@master ~]$ hive --service metastoreStarting Hive Metastore Server18/12/19 14:48:55 WARN conf.HiveConf: HiveConf of name...

2018-12-20 11:46:17 860

原创 oracle如何将以固定分隔符(逗号)分隔的多行字符串拆分为多行(表生成)

--将多行字符串拆分with p as --构建数据临时表 (select 1 as id, 'aa,bb,cc,dd,ee' as split_string, 1 as num from dual union all select 2, 'ff,gg,hh,ii,jj,kk', 3 from dual union all select 3, 'aa,bb,...

2018-12-19 09:57:21 2909

原创 hive的streaming:an error occurred when trying to close the Operator running your custom script.

 在对hive 进行 select 查询的时候 我们可以编写 python 、php 、perl等脚本来进行相应的数据处理,我们要用到hive  的 transform  和 using。 在使用的时候容易报如图所示的错误:an error occurred when trying to close the Operator running your custom script.hive...

2018-12-14 14:29:36 3117

转载 数据仓库(六)之数据质量篇

概述 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据...

2018-12-13 15:48:31 365

转载 数据仓库(五)元数据管理

概述 元数据通常定义为”关于数据的数据”,在数据仓库中是定义和描述DW/BI系统的结构,操作和内容的所有信息。元数据贯穿了数据仓库的整个生命周期,使用元数据驱动数据仓库的开发,使数据仓库自动化,可视化。  元数据类型         &nbsp...

2018-12-13 15:47:05 280

转载 数据仓库(四)之ETL开发

概述 ETL是数据仓库的后台,主要包含抽取、清洗、规范化、提交四个步骤,传统数据仓库一般分为四层模型。                  

2018-12-13 15:45:48 303

转载 数据仓库(三)之架构篇

概述 架构是数据仓库建设的总体规划,从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系,描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么,架构就是回答怎么做的问题。 架构的价值             &...

2018-12-13 15:44:17 211

转载 数据仓库(二)之维度建模篇

概述 维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析...

2018-12-13 15:43:11 461

转载 数据仓库(一)之需求篇

概述  业务需求定义了企业的业务人员为了完成其工作,进而实现企业目标,一定要具备的东西。包括功能性需求和提供的服务。它是数据仓库的核心,从广度和深度上做好需求调研为数据仓库建设建立良好的开端。      &

2018-12-13 15:41:24 360

原创 Centos 7.5安装eclipse

1.查看系统版本号和内核版本信息#查看系统版本号cat /etc/redhat-release#查看系统内核信息uname -a 运行结果: 2. 下载eclipse软件下载地址:https://www.eclipse.org/downloads/packages/release/Luna/SR2ps:1.下载与操作系统版本对应的Eclipse软...

2018-12-12 18:24:06 380

原创 oracle:查看被锁表相关信息

  在具有dba权限用户进行执行以下语句: 1.查看被锁的表:SELECT t.session_id as sid, t2.serial#, t.locked_mode, t.oracle_username, t.os_user_name, t2.machine, t2.terminal, ...

2018-12-10 15:32:26 228

原创 hive数据倾斜

hive数据倾斜定义:key分布不均匀 导致分发到不同的reduce上 个别reduce任务特别重 导致其他reduce都完成  而这些个别的reduce迟迟不完成原因:1.key分布不均匀2.map端数据倾斜 输入文件太多且大小不一3.reduce端数据倾斜 分区器问题解决方案:1.调解hive配置参数1)设置hive.map.aggr = true map端部分聚合 相当于...

2018-12-08 10:16:30 140

原创 sql第N工资问题: leetcode 177. Nth Highest Salary

leetcode链接:https://leetcode.com/problems/nth-highest-salary/mysql解法:CREATE FUNCTION getNthHighestSalary(N INT) RETURNS INTBEGIN RETURN ( # Write your MySQL query statement below. se...

2018-12-06 17:09:57 193

原创 bash词频统计:leetcode 192. Word Frequency

leetcode链接:https://leetcode.com/problems/word-frequency/ cat words.txt|tr -cs  "[a-z][A-Z]" "\n"|sort|uniq -c|sort -k 1 -r|awk {'print $2,$1'} 步骤详解:cat:读取文本|:管道tr:将每个词按行显示sort:排序uniq:...

2018-12-06 16:25:44 113

原创 oracle11g 自动创建分区年/月/日/周

oracle11g 自动创建分区年/月/日/周–建表时创建自动分区CREAT TABLE TABLE1(TABLE_ID NUMBER(8),SUB_DATE DATE,VALUE NUMBER(8))PARTITION BY RANGE(SUB_DATE)INTERVAL(NUMTOYMINTERVAL(1,‘MONTH’))–按月分区(PARTITION P1 VALU...

2018-12-04 15:49:03 358

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除