自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (27)
  • 论坛 (1)

原创 Greenplum 存储及使用场景

Greenplum支持行存和列存,对应的是堆表和AO表行存和列存的原理1、行存,以行为形式组织存储,查询的时候需要全表扫描要扫描更多的数据块;压缩比较低;读取任意列的成本不一样,越靠后的列,成本越高。2、列存,以列为形式组织存储,每列对应一个或一批文件。读取任一列的成本是一样的,但是如果要读取多列,需要访问多个文件,访问的列越多,开销越大压缩比高;读取任意列的成本是一样的;非常...

2020-01-13 10:53:12 791

原创 第二篇: 模式分类

主要有:维度建模、范式建模、Data Vault模型、Anchor模型维度模型 企业中最流行也是最经典的数仓建模经典。按数据组织类型划分可分为星型模型、雪花模型、星座模型。范式模型 即实体关系(ER)模型,数据仓库之父Immon提出的,从全企业的高度设计一个3NF模型,用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF。此建模方法,对建模人员的能力要求非常高。Da...

2019-12-19 13:57:56 107

原创 第一篇:数据仓库分层概念

一 为什么要对数据仓库分层?(1)用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;(2)如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大;(3)通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的...

2019-12-17 17:06:03 265

原创 Greenplum 权限基本命令

创建权限问题:1.1)创建role CREATE ROLE "yfkj" CREATEDB;1.2) 创建SchemaCREATE SCHEMA IF NOT EXISTS fiproduct_v_${tenant};1.3) 给 schema 赋权GRANT USAGE ON SCHEMA uorders_v_${tenant} TO yfkj WITH GRANT ...

2019-11-28 17:13:46 558

转载 Greenplum常用的gp_toolkit & pg_catalog监控语句

原文链接:https://mp.csdn.net/postedit目录gp_toolkit 说明1、表膨胀相关查询2、表倾斜的相关信息3、锁查询相关的信息4、日志查询相关的信息5、资源队列相关查询信息6、查看磁盘上(database,schema,table,indexs,view)等的占用大小的相关信息7、用户使用的工作空间大小信息8、查看用户创建的...

2019-11-26 21:07:15 360

原创 hbase 基本命令

1) 在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。ApacheHBase从0.98.0,0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收namespace的授权2)HBase系统默认定义了两个缺省的namespace hbase:系统内建...

2019-11-05 21:01:41 114

原创 Apache Atlas2.0 第七节 搜索功能

项目中使用到的东西,其他的基本没有啥研究1) 全局搜索:excludeDeletedEntities 这个属性一定加上,不然会把你删除的数据也给查询熟练,http://ip:port/api/atlas/v2/search/fulltext?query=test_atlas&excludeDeletedEntities=true2)唯一搜索:这个功能会有意想不到的收获。一般情况...

2019-10-17 16:54:43 614

原创 Apache Atlas2.0 第六节 血源关系

1 )首先看一个效果图2 )由于使用hdp 进行Atlas集成,所以下面使用的是0.7版本的,亲自验证过的流程,先上一段json, 每两个Table (entity)之间需要一个Process 进行连接,形成一条血缘关系图。首末两端使用 inputs ,outputs进行entity 关联{ "entity":{ "typeName":"Process",...

2019-10-17 16:26:24 3937 3

原创 Apache Atlas2.0 第五节 集成RDBMS

查找了许多资料,发现对RDBMS支持很少,貌似需要写Rdbms的bridge,这里只介绍通过API方式,将mysql 导入到Atlas,血缘关系,继续改进请求方式:Post请求路径:http://localhost:21000/api/atlas/v2/entity请求验证方式:BaseAuth admin/admin建立数据库实例://3cd3adc7-67cf-4563...

2019-07-18 17:35:43 2423 3

原创 Apache Atlas2.0 第四节 执行流程

首先从官网查了一下支持的数据源:Hive sqoop Falcon Storm普及一下Apache Falcon是一个开源的hadoop数据生命周期管理框架, 它提供了数据源 (Feed) 的管理服务,如生命周期管理,备份,存档到云等,通过Web UI可以很容易地配置这些预定义的策略, 能够大大简化hadoop集群的数据流管理安装之前需要手动配置 atlas-application.pr...

2019-07-11 12:08:08 1480 5

原创 Apache Atlas2.0 第三节 类型系统

Atlas允许用户为他们想要管理的元数据对象定义模型。该模型由称为type(类型)的定义组成。称为entities(实体)的type(类型)实例表示受管理的实际元数据对象。 Type System是一个允许用户定义和管理类型和实体的组件。开箱即用的Atlas管理的所有元数据对象(例如Hive表)都使用类型建模并表示为实体。要在Atlas中存储新类型的元数据,需要了解类型系统组件的概...

2019-07-11 12:07:31 1880 2

原创 Apache Atlas2.0 第二节 架构理解

Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统,整个结构 图如下所示:核心组件CoreType System: Atlas 允许用户为他们想要管理的元数据对象定义一个模型。该模型由称为 "类型" 的定义组成。"类型" 的 实例被称为 "实体" ...

2019-07-11 12:06:17 6737 1

原创 Apache Atlas2.0 第一节 构建与安装

1 准备工作: 本文档以最新版本为例(2.0) 下载安装:jdk-8u211-linux-x64.tar.gz 地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html(千万记住不要使用Linux 自带的jdk,安装过程中有大坑) ...

2019-04-25 17:54:48 4688 15

转载 机器学习中的一些距离公式及详细介绍

转载本文请加上:转载自过往记忆(https://www.iteblog.com/)本文链接: 【机器学习中常用的距离公式】(https://www.iteblog.com/archives/2317.html)     ...

2019-01-08 19:39:53 128

原创 分布式系统唯一ID生成方案总结

       系统的唯一主键是需要系统面临的问题,生成ID的方法有很多,适应不同的场景、需求以及性能要求。下面几种是常见的一些技术方案,包括一些优缺点总结:(参考:https://www.cnblogs.com/haoxinyue/p/5208136.html)1  数据库级别:常见的方法是利用数据库字段的唯一性优点:1)简单,代码方便,性能可以接受。2)数字ID天然排序,对分页或...

2018-12-21 14:04:12 398

原创 观察者模式

观察者模式的定义:  在对象之间定义了一对多的依赖,这样一来,当一个对象改变状态,依赖它的对象会收到通知并自动更新。大白话:  其实就是发布订阅模式,发布者发布信息,订阅者获取信息,订阅了就能收到信息,没订阅就收不到信息。观察者模式所涉及的角色有:  ● 抽象主题(Subject)角色:抽象主题角色把所有对观察者对象的引用保存在一个聚集(比如ArrayList对象)里,每个主题...

2018-11-15 10:06:37 47

原创 Linux 时间问题

一、查看和修改Linux的时区1. 查看当前时区命令 : "date -R"2. 修改设置Linux服务器时区方法 A命令 : "tzselect"方法 B 仅限于RedHat Linux 和 CentOS命令 : "timeconfig"方法 C 适用于Debian命令 : "dpkg-reconfigure tzdata"3. 复制相应的时区文件,替换系统时区文件...

2018-11-15 09:37:21 501

原创 一个作业多个任务调度例子

/** * * @ClassName: MetaStreamSetTask* @Description: TODO(这里用一句话描述这个类的作用)* @author caozq* @date 2018年10月24日 */public class MetaStreamSetTask extends SingleTaskJob { private static final ...

2018-11-07 11:31:36 236

转载 win10专业版激活方法——亲测可行!!!

1.首先,我们先查看一下Win10正式专业版系统的激活状态:点击桌面左下角的“Windows”按钮,从打开的扩展面板中依次点击“设置”-“更新和安全”,并切换到“激活”选项卡,在此就可以查看到当前系统的激活状态。如图,Win10正式专业版当前未激活 2.接下来在桌面左下角的“cortana”搜索框中输入“CMD”,待出现“命令提示符”工具时,右击选择“以管理员身份”运行。  ...

2018-10-17 09:37:29 242 1

原创 Linux 中定时执行MapReduce任务

1)安装Hadoop环境2)写MapReduce任务,将项目打包  OperateAyx-1.3.1.jar   入口如下:HBaseMR mian() 方法的编写3)进入 cd /var/spool/cron  路径,用hdfs用户上传到服务器  chown hdfs:hdfs OperateAyx-1.3.1.jar4)启用 Linux 定时任务  crontab -e   0...

2018-09-18 15:23:03 917

原创 Jdk8 lambda 表达式例子

public static void test(){ List<DwMmDefVO> vos = new ArrayList<DwMmDefVO>(); DwMmDefVO temp = new DwMmDefVO(); temp.setDsName("name1"); temp.setDefType("Type1"); temp.setPk("PK1"); ...

2018-09-18 14:35:51 833

转载 基于区块链的智能合约安全

智能合约定义和实际应用举例最近,区块链技术已经成为很多行业游戏规则的变革者,在比特币中涌现的分布式分类技术在数字货币之外也有了非常广阔的应用前景。区块链技术最有前途的一个应用就是开发智能合约。智能合约是自我执行合约,在智能合约中,合约条款由代码规定。基本上,这意味着可以用计算机程序编写具有法律效力的合约,而且这个合约可以自动执行。至少在1996年Nick Szabo 就提出了这一概...

2018-09-12 10:14:34 2462

原创 区块链目前的几大共识算法

共识机制:区块链事务达成分布式共识的算法。区块链是一种去中心化的分布式账本系统,它可以用于登记和发行数字化资产、产权凭证、积分等,并以点对点的方式进行转账、支付和交易。区块链系统与传统的中心化账本系统相比,具有完全公开、不可篡改、防止多重支付等优点,并且不依赖于任何的可信第三方。由于点对点网络下存在较高的网络延迟,各个节点所观察到的事务先后顺序不可能完全一致。因此区块链系统需要设计一种机制...

2018-09-12 10:13:11 10471

原创 Hash签名算法入门

在这篇文章中主要讲述了签名算法的发展历程,分析了基于哈希函数的签名算法的原理及优缺点。在过去的几年间,我有幸观察到两种矛盾又有吸引力的趋势。第一种是我们终于开始使用研究员花40年设计的密码学。从加密信息到手机安全再到数字加密货币,我们每天都可以从例子中看到这一点。第二种趋势是密码学正在为所有美好时光的结束做准备。在我完成这些之前,我要强调的是,这不是一篇关于量子计算灾难的文章,也不是一...

2018-09-12 10:11:28 4304

原创 业务树结构的构造

1   构造一个树结构@Entity@Table(name = "DW_META_MMDIR")public class DwMmDirVO { private static final long serialVersionUID = 1L; @Id @Column(name = "PK_DIR", length = 36, nullable = false, ...

2018-09-12 10:05:36 348

原创 java 注解定义及数据库封装

1.1) 定义注解  Column@Retention(RetentionPolicy.RUNTIME)  @Target(ElementType.FIELD)public @interface Column {     /**      * 字段名称      */      String value();            /**      * 字段的类型     ...

2018-08-17 13:22:00 626

原创 spark sql自己定义规则

1) github 下载spark 源码(下面的代码都是需要添加的,找到对应的文件进行添加即可)2)找到 SqlBase.g4 文件,以 offset 为例进行说明,下面的   2.1)找到下面的内容queryOrganization : (ORDER BY order+=sortItem (',' order+=sortItem)*)? (CLUSTER BY ...

2018-08-17 11:58:16 1173 2

原创 CentOS7 防火墙问题

1  查看版本情况:1)cat /etc/redhat-release,这种方法只适合Redhat系的Linux2)cat /proc/version3)uname -a2  查看服务器应用的端口情况ss -l -t -n3 firewalld的基本使用启动: systemctl start firewalld关闭: systemctl stop firewalld...

2018-08-17 11:50:15 93

原创 tomcat 集成 jdk 工具包的修改

1) 下载免安装  jdk  和tomcat2)   将jdk 放到  tomcat 里面,如图所示,最后的结构是这样子的。3) 配置jdk 运行环境3.1)win 环境下,修改setclasspath.bat  ,在文件头部,加入如下配置rem ------------------------------------------------------------------...

2018-07-23 16:36:14 230

原创 Calcite 使用原生的RDD 处理Spark

1   通过配置 :  properties.setProperty("spark", "true"); //可以执行调用内部的函数2  需要修改 Calcite-spark  中相关的文件/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreem...

2018-06-28 16:13:40 1508 2

原创 基于Java的SQL解析工具的比较与学习

1、JSqlParsergtihub 地址:  https://github.com/JSQLParser/JSqlParser.git使用方法:/** * * @Package: com.yonyou.splice * @author: caozq * @date: 2018年6月26日 下午12:03:52 */package com.yonyou.splice;...

2018-06-28 16:08:06 9815

原创 Maven 用到的技巧

1  依赖本地Jar  最好放到目录lib 下面<dependency> <groupId>com.yonyou.dataworks</groupId> <artifactId>connection</artifactId> <scope>system</scope> <ver

2018-06-28 15:43:30 88

原创 Calcite 将 json 转化为 ResultSet

开始测试:import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;import org.apache.calcite.jdbc.CalciteConnection;i...

2018-06-28 15:38:18 897

转载 spark 学习资料

以下为该系列文章列表:1.Spark及其生态圈简介  下载2.Spark编译与部署(上)--基础环境搭建  下载2.Spark编译与部署(中)--Hadoop编译安装  下载2.Spark编译与部署(下)--Spark编译安装  下载3.Spark编程模型(上)--编程模型及SparkShell实战  下载3.Spark编程模型(下)--IDEA搭建及实战  下载4.Spark运行架构  下载5....

2018-06-14 19:43:50 234

原创 calcite 连接Mysql 数据库 demo

Calcite是一种动态数据管理系统,它具有标准SQL、连接不同前端和后端、可定制的逻辑规划器、物化视图、多维数据分析和流查询等诸多能力,使其成为大数据领域中非常有吸引力的查询引擎.看了好多Github 都没有一些合适的例子,自己花了一段时间整理的,希望以后会用到,代码中有很多不足的地方,就不多说,直接在本地做了一个DEMOBaseConnection: 定义接口,所有jdbc 都需要实现这个方法...

2018-06-14 19:43:01 2313 6

原创 spark 连接Mysql 的例子

直接上代码:object JdbcOperation { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("test").setMaster("local") val sc = new SparkContext(conf) sc.setLogLevel("WAR...

2018-06-14 19:23:30 871

原创 Spark demo java

public class SparkJava { public static class Person implements Serializable { private static final long serialVersionUID = -6259413972682177507L; private String name; private int age; public Perso...

2018-06-14 19:18:03 3216

原创 spark 三种创建 数据集的方法,及测试(Scala代码)

1 通过创建RDD执行查询/** * * 优点: * * 编译时类型安全 * 编译时就能检查出类型错误 * 面向对象的编程风格 * 直接通过类名点的方式来操作数据 * 缺点: * * 序列化和反序列化的性能开销 * 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. * GC的性能开销 * 频繁的创建和销毁对象, 势...

2018-06-14 19:16:52 2583

转载 SparkSQL

支持原创,这是最近看的比较好的文章:https://www.cnblogs.com/shishanyuan/p/4723604.html?utm_source=tuicool1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上...

2018-05-11 00:35:05 139

原创 idea 开发java 和 scala 配置问题

1  下载 idea 最好是社区版本的,否则需要注册   https://www.jetbrains.com/idea/download/#section=windows,安装 next to next2 下载最新  jdk  最好是最新  http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151....

2018-05-11 00:29:22 960

Hadoop与Hbase

不错的开门学习书籍,希望可以给同志们带来福利

2014-04-22

英文资料,计算机专业

英文资料,计算机专业毕业设计专用。希望大家有用。

2011-06-03

计算机专业,英文资料

计算机专业,英文资料。适合于毕业设计。本人花时间找的,希望对大家有用。

2011-06-03

英文翻译:标准块和图像分割 颜色分离系统 中英都有

英文翻译:标准块和图像分割 颜色分离系统 中英都有. 适合于计算机专业学生的毕业设计。

2011-06-03

计算机专业 毕业论文 英文资料

计算机专业毕业论文的英文资料。都是我没事的时候学习专业英语翻译的,希望对大家有所帮助。含有中文翻译。

2011-06-01

图像边缘检测方法研究综述(有英语翻译)

图像边缘检测方法研究综述(有英语翻译)。做图像处理的计算机专业学生专用。希望对大家有用。

2011-05-27

[英语论文]探讨翻译学辩论中的几个边缘问题

[英语论文]探讨翻译学辩论中的几个边缘问题。毕业设计必备资料。希望对大家有用。

2011-05-27

边缘检测英语资料,毕业设计有用的

人眼作为一个普通的感觉器官对不同强度的灰度刺激有着不同的分辨阈限。首先在实验的基础上结合感觉测定理论建立了人眼灰视觉阈限模型GVLF(Gray Vision Limen Flunction)。进而,我们以GVLF构造出广义模糊边缘检测的变换函数。实验表明,基于GVLF的广义模糊边缘检测方法具有相对优越性。

2011-05-27

Java语言学习课件,很好的课件

Java 概述,包括各种实例,代码。最主要的是有课件。本人在培训机构的来的

2011-05-27

基于jsp的网上购物系统

基于jsp的网上购物系统本购物系统由于需要演示程序,故为了演示方便,采用JSP+Access数据库的架构实现的,此系统分为前台管理和后台管理。前台管理是友好的操作界面,供用户浏览、查询使用。包括:浏览商品、查询商品、订购商品、购物车、用户维护等功能;后台管理是提供给管理员的,其中包括:商品管理、用户管理、网站信息管理、和广告友情链接等。使管理员从繁琐的手工操作中解脱出来,并提高了办公效率。

2011-05-23

全面讲述了应用MFC进行Visual C++编程

通过85个实例全面讲述了应用MFC进行Visual C++编程的思想。每个实例均以编写一个应用程序要走的步骤编写。全书共分四部分进行介绍,是基础知识,讲述用户界面的实例,讲述MFC内部处理方面的实例,讲述打包实例。

2011-05-22

一个完整的学校档案管理系统

一个完整的学校档案管理系统。包括学生信息录入、成绩查询、档案寄发、数据库备份还原的功能

2011-05-22

VC界面编程可以从中学习到如何使用VC中位图等资源创建漂亮

VC界面编程;可以从中学习到如何使用VC中位图等资源创建漂亮、美观的VC界面。

2011-05-22

Visual C++_MATLAB图像处理与识别实用案例精选

Visual C++_MATLAB图像处理与识别实用案例精选

2011-05-22

VC++6.0的实时曲线图表程序

VC++6.0的实时曲线图表程序.随着输入数据的变化,图表曲线随之实时的上下波动.-VC 6.0 real-time graphs procedures. Along with the changes in input data, Real-time charts followed the curve fluctuations.

2011-05-22

VC++6.0 VFW 视频捕捉程序,含源代码和运用程序

VC++6.0 VFW 视频捕捉程序,含源代码和运用程序,,本人花钱买的

2011-05-22

vc++编写的界面源代码

vc++编写的界面源代码,全部自绘,功能及其强大,想学界面编程的一定要看

2011-05-22

聊天程序vc++6.0

聊天程序vc++6.0。很好的学习资料,能够加深你对vc的理解。

2011-05-15

图书馆管理系统 vc++6.0

本人毕业设计所做,希望给同志们带去希望,不完善的地方,希望给予指点。

2011-05-15

apache-atlas-2.0.0-hive-hook.tar.gz

Atlas2.0 自己编译通过的包,独立打包 可以使用的,希望多大家是有用的

2019-07-11

apache-atlas-2.0.0-hbase-hook.tar.gz

Atlas2.0 自己编译通过的包,独立打包 可以使用的,希望多大家是有用的

2019-07-11

Atlas集成.docx

Atlas 是一个可伸缩且功能丰富的数据管理系统,深度集成了 Hadoop 大数据组件。简单理解就是一个跟 Hadoop 关系紧密的,可以用来做元数据管理的一个系统,整个结构

2019-07-11

MATLAB进阶与提高

MATLAB进阶与提高,Matlab与机器学习的入门 进阶与提高 13课

2018-08-22

visio2016(64位)激活工具

visio2016(64位)激活工具,自己试过,是可以安装的,再也不用怕过期了

2018-08-22

netty 例子

netty 例子,Netty是业界最流行的NIO框架之一,它的健壮性、功能、性能、可定制性、可扩展性在同类框架中都是首屈一指的

2018-08-22

Hash签名算法入门

Hash签名算法入门,在这篇文章中主要讲述了签名算法的发展历程,分析了基于哈希函数的签名算法的原理及优缺点。

2018-08-22

区块链目前的几大共识算法

区块链目前的几大共识算法,个人总结,目前主要有几大类共识机制:Pow、Pos、DPos、Pool、PBFT

2018-08-22

学习数据挖掘

发表于 2013-03-04 最后回复 2014-09-18

空空如也
提示
确定要删除当前文章?
取消 删除