kkx1988-CSDN博客

转载数据脱敏和数据加密的区别

数据脱敏和数据加密是两种截然不同的技术，适用于不同目的。脱敏技术主要是为了兼顾数据安全与数据使用，采用的是专业的数据脱敏算法；而加密则是通过对数据进行编码来保护数据，检索原始值的唯一方法是使用解密密钥解码数据。脱敏数据仍然便于使用，但加密数据不是。加密的主要优点在于它的可逆性，但是解密密钥存储位置、如何存储以及确定谁具有访问权限等工作都会给整个安全工作增加额外的成本、故障点，加剧复杂性...

2018-04-23 14:48:33 32773 5

原创 hive修改表----alter table

语法ALTER TABLE name RENAME TO new_nameALTER TABLE name ADD COLUMNS (col_spec[, col_spec ...])ALTER TABLE name DROP [COLUMN] column_nameALTER TABLE name CHANGE column_name new_name new_typeALTER TAB...

2018-02-08 15:35:53 9121

转载数据仓库之架构发展

数据仓库有很多类型的架构方式，按照发展的历程上，主要有如下几类标志性。独立的数据集市架构。在最早期的数据仓库建设中，大多是以部门为单位搭建数据仓库，也就是数据集市，供整个部门使用。这样能够很快的构建好数据仓库，但是缺点是很容易产生不同部门因数据计算口径不同而导致的数据产出结果不一致。当然对于小公司来讲，构建一个公司级的数据集市也是能够满足需求的。联邦式的数据仓库架构。不同的部门构建出不同

2018-01-29 09:55:19 751

转载数据仓库是什么

数据库是最常听到的名词之一了，但是当提到数据仓库的时候，就会疑问，数据仓库是数据库吗？如果不是，数据仓库是什么，用来干什么的呢？平时遇到这个问题一般还真是不好简单明了的回答，因为也的确不是一两句话说的清的。那么数据仓库到底是什么呢，跟数据库有什么区别呢？数据仓库是什么呢？数据仓库是面向主题的集成的相对稳定的反映历史变化的数据集合，目的在于支持决策

2018-01-29 09:50:19 3417

转载主数据及其管理MDM

什么是主数据企业数据的管理包含主数据，元数据，交易数据。主数据是描述企业核心实体的基础数据，比如客户、用户、产品、员工等。它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用的数据，并且存在于多个异构的应用系统中。比如一个产品系统，它处理的基本数据就是生产数据。HR系统处理的基本数据是雇员；CRM系统是客户。一般来说核心主数据包含：Cus

2018-01-29 09:47:53 3004

原创 hawq的常用知识

psql常用命令：查看SQL执行时间：/timing与hive数据类型的映射：

2018-01-26 16:34:31 252

原创大数据量的建表、导数据

-----跨机器转移数据文件-----（scp 在linux服务器之间复制文件和目录,cp只能在本机复制，不可以跨服务器）scp -r 20170907.tar.gz username@ip~:/export/---解压tar -zxvf 20170907.tar.gz=====================================或者-------将电脑

2018-01-26 15:15:56 977

原创 greenplum使用PXF访问外部数据

Greenplum平台扩展框架（PXF）通过内置连接器提供对外部数据的访问，这些连接器可以将外部数据源映射到Greenplum数据库表，通过外部表的形式查询外部数据源。PXF可支持访问的外部数据源有HDFS，Hive和HBase。其中可以对HDFS数据进行读和写操作。下面介绍PXF访问Hive数据的方法一）PXF访问Hive数据PXF Hive连接器支持多种hi

2018-01-26 14:31:44 6215 1

原创 greenplum建表如何添加注释

与hive的注释方式略不同。创建表：CREATE TABLE CORPREPORTERINFO(CRID NUMBER NOT NULL,CORPID VARCHAR2(8) NOT NULL,CRNAME VARCHAR2(20),PRIMARY KEY(CRID,CORPID))TABLESPACE "AGR";添加表注释：COMMENT ON tabl

2018-01-26 14:26:41 6119

转载 GP的TPC-DS测试

TPC-DS测试基准参考GitHub：https://github.com/pivotalguru/TPC-DS#gpadmin用户下，用rz命令上传附件中Greenplum_TPC_DS.tar.gz包到/home/gpadmin/目录下并解压echo "export MASTER_DATA_DIRECTORY=/data/master/gpseg-1source /op

2018-01-26 14:20:19 1338

转载 MapReduce体系架构

学习： MR框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的不同的从节点上。主节点监视它们的执行情况，并重新执行之前失败的任务。从节点仅负责由主节点指派的任务。当一个Job被提交时，JobTracker接受到提交作业和配置信息之后，就会将配置信息等分发给从节点，同时调度任

2017-10-26 15:36:11 735

转载 HDFS的体系架构

整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过MR来实现对分布式并行任务处理的程序支持。HDFS采用主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的（在最新的Hadoop2.2版本已经实现多个NameNode的配置-这也是一些大公司通过修改hadoop源代码实现的功能，在最新的版本中就已经实现

2017-10-26 10:23:35 583

转载 Ambari——大数据平台的搭建利器（Ambari 的架构和工作原理）

Ambari 基本的架构和工作原理如下图 17 所示。图 17. Ambari 的基本架构Ambari Server 会读取 Stack 和 Service 的配置文件。当用 Ambari 创建集群的时候，Ambari Server 传送 Stack 和 Service 的配置文件以及 Service 生命周期的控制脚本到 Ambari Agent。Agent 拿到配置文件后，

2017-09-19 17:30:22 809

转载 Ambari——大数据平台的搭建利器(利用 Ambari 管理 Hadoop 集群)

我们来看看如何通过 Ambari 管理 Hadoop 的集群。Service Level Action（服务级别的操作）首先我们进到 Ambari 的 GUI 页面，并查看 Dashboard。在左侧的 Service 列表中，我们可以点击任何一个您想要操作的 Service。以 MapReduce2 为例（Hadoop 这里的版本为 2.6.x，也就是 YARN+

2017-09-19 16:22:07 3596

转载 Ambari——大数据平台的搭建利器(Ambari 是什么)

Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。目前最新的发布版本是 2.0.1，未来不久将发布 2.1 版本。就Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈（例如 Hive，Hbase，Sqoop，Zooke

2017-09-19 15:43:32 2252

kkx1988的博客