自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ChengYanan的博客

大数据技术学习园地

  • 博客(412)
  • 资源 (12)
  • 论坛 (1)
  • 收藏
  • 关注

转载 [squirrel使用]--Windows安装详解 [转]

注:本文转载自https://blog.csdn.net/high2011/article/details/80565352squirrel在windows下的安装文档一.下载安装从网址http://www.squirrelsql.org/下载相应版本的squirrel的安装jar包,比如下载squirrel-sql-3.7-standard.jar双击安装,出现如下安装界面,下一步开始安装二.配置连接phonenix(无kerberos认证)1.配置squirrel(1)在phoenix机器

2020-12-01 10:04:01 2

原创 Mysql事务隔离(二)

文章目录mysql事务事务的四大属性ACID隔离性与隔离级别测试案例事务隔离的实现事务的启动方式总结mysql事务事务就是要保证一组数据库操作,要么全部成功,要么全部失败。在 MySQL 中,事务支持是在引擎层实现的。MySQL 是一个支持多引擎的系统,但并不是所有的引擎都支持事务。比如 MySQL 原生的 MyISAM 引擎就不支持事务,这也是 MyISAM 被 InnoDB 取代的重要原因之一。事务的四大属性ACIDACID(Atomicity、Consistency、Isolation、D

2020-11-25 19:58:14 26

原创 一条SQL查询语句时如何执行的(一)

一、Mysql的逻辑架构图大体上Mysql可分为Server层和存储引擎层两部分。Server层:主要包括连接器、查询缓存、分析器、优化器、执行器等,涵盖 MySQL 的大多数核心服务功能,以及所有的内置函数(如日期、时间、数学和加密函数等),所有跨存储引擎的功能都在这一层实现,比如存储过程、触发器、视图等。存储引擎层主要负责数据的存储和提取。其架构模式是插件式的,支持 InnoDB、MyISAM、Memory 等多个存储引擎。现在最常用的存储引擎是 InnoDB,它从 MySQL 5.5.5

2020-11-21 14:28:03 9

原创 深入理解kafka服务端控制器

Kafka的控制器kafka集群中有1个或者多个broker,其中有一个broker会被选举为控制器(Kafka Controller),它负责管理整个集群中所有分区和副本的状态。当某个分区的leader副本出现故障时,由控制器负责为该分区选举新的leader副本。当检测到某个分区的ISR集合发生变化时,由控制器负责通知所有的broker更新其元数据信息。当某个topic分区数量增加时,也是由控制器负责分区的重新分配。控制器的选举及异常恢复Kafka的控制器选举工作依赖于Zookeeper

2020-11-12 11:45:59 28

原创 kafka中对时间轮的应用分析

kafka中存在着大量的延时操作,比如延迟生产,延迟拉取,延迟删除等,这些延时操作并不是基于JDK 自带的Timer或者DelayQueue 实现,而是基于时间轮的概念自己实现了一个延时定时器,JDK中Timer和DelayQueue的插入和删除操作的平均时间复杂度为O(nlogn)并不能满足Kafka的高性能要求,而基于时间轮可以将插入和删除操作的时间复杂度都降为 O(1)。‘’kafka中的时间轮是一个存储定时任务的环形队列,底层采用数组实现,数组中的每个元素可以存放一个定时任务列表(TimerTa

2020-11-09 21:53:59 22

原创 jdbc读取Gzip编码后的Blob类型的数据

azkaban库中的project_flows 表中的 json 字段是Blob类型的数据,而且经过Gzip 编码,还原过程示例:public static void main(String[] args) { String SELECT_ALL_PROJECT_FLOWS = "SELECT project_id, version, flow_id, modified_time, encoding_type, json " + "F

2020-11-02 16:01:51 18

原创 azkaban 中对于任务运行日志的处理

文章目录azkaban任务日志处理方式azkaban日志mysql表信息源码中逻辑处理流程azkaban任务日志处理方式azkaban是将任务的运行日志存储在mysql 表中的,根据任务的exec_id,name,attempt,即可获取对应任务的日志,当日志文件比较大时,日志将按照50KB的规格来进行分段储存,每一段日志都插入一条数据,详细内容如下文。azkaban日志mysql表信息mysql表的schema如下:CREATE TABLE `execution_logs` ( `exec_

2020-11-02 15:52:26 53

原创 MySQL中的BLOB类型

1、MySQL有四种BLOB类型:tinyblob:仅255个字符blob:最大限制到65K字节mediumblob:限制到16M字节longblob:可达4GB2、除了类型对后面存取文件大小有限制,还要修改mysql的配置文件。  Windows、linux基本一样通过修改文件my.ini或my.cnf文件,在文件中增加 max_allowed_packet=10M(就是最大10...

2020-11-02 14:56:58 6

原创 Mysql CDC 流式写Hive代码示例

cdc -> kafka示例消息如下{"data":{"team_id":1001,"team_name":"Sun","create_time":"2020-10-3111:25:38","update_time":"2020-10-31 11:25:38"},"op":"+I"}示例代码:import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api

2020-11-02 10:23:12 53

原创 FlinkSQL 时区问题

问题:近期发现 Flink 的 Blink Planner 在 DATE_FORMAT 对 CURRENT_TIMESTAMP做时间格式化为字符串时,默认以 UTC+0 为准。长期以来,TableConfig 类里面有一个 setLocalTimeZone 方法;将其设置为东八区以后,发现格式化后的字符串仍然是 UTC+0的。而深入来看,Flink 的时间格式化时的代码生成逻辑(time.scala)并未考虑时区的设置。由于大多数用户的时区均不是 UTC+0(GMT、UTC),如果时间格式化、显示

2020-10-31 13:54:48 108

原创 Scala 并发编程模型Akka(一) Akka简介

Akka是JVM平台上构建高并发、分布式和容错应用的工具包和运行时,也可以理解成是编写并发程序的框架。Akka用Scala语言写成,同时提供了Scala和JAVA的开发接口。Akka主要解决的问题是:可以轻松的写出高效稳定的并发程序,程序员不再过多的考虑线程、锁和资源竞争等细节。Actor 模型用于解决什么问题处理并发问题关键是要保证共享数据的一致性和正确性,因为程序是多线程时,多个线程对同一个数据进行修改,若不加同步条件,势必会造成数据污染。但是当我们对关键代码加入同步条件synchroni.

2020-10-17 15:08:34 36

转载 Scala Map 转 Json字符串

import org.json4s._import org.json4s.jackson.Serialization._import org.json4s.jackson.Serializationimplicit val formats = Serialization.formats(NoTypeHints) val m = Map( "name" -> "john doe", "age" -> 18, "hasChild" -> true, "childs"

2020-10-16 09:55:18 100

原创 flink-connector-jdbc 落入mysql的时候timestamp 有时差问题

flink-connector-jdbc 获取mysql的timestamp类型的数据后,sink到mysql后时间会晚八个小时。Ex: 获取到的是2020-05-12T11:53:08,写入mysql后变成2020-05-11 22:53:08问题详情:我是通过 flink-sql-connector-mysql-cdc获取mysql的binlog。通过flink-connector-jdbcsink到mysql中。source 中有调节时区的参数。所以读取到的是正确的。但是sink 中没有调节

2020-10-13 20:00:51 71

原创 Flink sql 消费kafka的顺序是怎么样的? 解答为什么第二次运行sql的结果和第一次不同

sql-client.sh中 建表create table iservVisit ( type string comment '时间类型', uuid string comment '用户uri', clientTime string comment '10位时间戳', rowtime as to_timestamp(from_unixtime(cast(substring(coalesce(clientTime, '0'), 1, 10) as bigint))), .

2020-09-18 16:01:18 87

原创 java 使用反射方式 获取对象

假设有一个类Abc,我们要用反射方式获取这个类的对象:public class Abc { private HashMap map; public HashMap getMap() { return map; } public Abc(HashMap map) { this.map = map; }}反射方法获取类对象伪代码:public static void main(String[] args) { try {

2020-09-18 09:26:33 35

原创 从plugin路径中读取依赖并构造对象——Azkaban源码解读之Alert plugin实现(一)

第一步加载类路径:azkaban.executor.AlerterHolderallAlerters 是一个HashMap ,key为String,value为AlertermailAlerter是系统内置的,无需处理,这里要加载的是自定义的插件告警这里边读取配置信息里的alerter.plugin.dir作为pluginDir,也就是插件文件夹然后调用了方法loadPluginAlerters(pluginDir)private Map<String, Alerter> loadAl

2020-09-17 20:58:28 23

原创 如何在启动taskmanager时传入自定义的java参数

我修改了flink的一些源码,需要通过外部-Dkey=value的形式动态将值传入,试了下无法直接通过bin/flink run 后加-D的方式来添加,有什么好的办法吗?方式一:可以在flink-conf.yaml里设置,例如:env.java.opts: -Djob.name={{job_name}}方式二:官网有相关配置 https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html#jvm-and-logging-

2020-09-16 20:01:52 81

原创 Azkaban 自定义邮件内容以及格式 源码修改

azkaban 为邮件告警的邮件内容提供了一个接口azkaban.executor.mail.MailCreator如下:public interface MailCreator {//生成第一次失败时发送的邮件内容 boolean createFirstErrorMessage(ExecutableFlow flow, EmailMessage message, String azkabanName, String scheme, String clientHostnam

2020-09-15 19:23:44 83

原创 Azkaban 单个Flow 任务执行流程 源码解读

Azkaban框架会将每个Flow抽象为FlowRunner,然后将FlowRunner放入线程池中异步运行,运行过程中涉及到多次修改job的转态,以及将状态持久化到DB元数据库中,这里就从源码角度将整个过程做个简单的分析:先从azkaban.execapp.FlowRunner#runFlow开始分析/** * Main method that executes the jobs. */private void runFlow() throws Exception { this.logg

2020-09-14 19:06:10 64

转载 JDK安全证书导入踩过的坑记录

1.JDK导入证书 keytool -import -trustcacerts -alias aaa -file ceshi.crt -keystore %JAVA_HOME%/jre/lib/security/cacerts -storepass changeit; ps:(1).aaa为导入证书的名称,自己定义 (2).执行命令行后要输入的密令:changeit2.查看cacerts中的证书列表 keytool -list -keystore "%JAVA_HOME%/jre/lib/se

2020-09-10 17:06:36 136 3

原创 gradle 国内镜像源配置

gradle 国内镜像源配置buildscript { repositories { //先从本地加载 mavenLocal() maven { url 'http://maven.aliyun.com/repository/central' } maven { url 'http://maven.aliyun.com/nexus/content/groups/public/' } maven { url 'http:

2020-09-08 18:38:47 33 1

原创 使用SQLAlchemy URI 连接Apache Druid

最新版本的superset已经将Apache Druid的本地connector去掉了,所以我们用pydruid的SQLAlchemy URI来连接Druid选择数据库:ip地址:就是Apache Druid 的router节点的地址port:就是Apache Druid的router节点的端口,我自己修改过,所以不是默认端口...

2020-09-08 10:07:00 49 2

原创 ElasticSearch nested类型求聚合

文章目录nested类型聚合:正则查询POST bdp_dev_profile_user_basic_label/_search{ "query": { "regexp":{ "office_company.keyword": ".*,dy,.*" } }}PUT my_example/_doc/1{ "content":"This is a good network"}POST my_example/_search{ "query":

2020-09-02 20:35:53 65

原创 分布式事务中的2PC介绍

2PC,是Two-Phase Commit的缩写,即二阶段提交,为了使基于分布式系统架构下的所有节点在进行事务处理过程中能够保持原子性和一致性而设计的一种算法。通常,二阶段提交协议也被认为是一种一致性协议,用来保障分布式系统数据的一致性,目前,绝大部分的关系型数据库都是采用二阶段提交协议来完成分布式事务处理的,利用该协议能够非常方便地完成所有分布式事务参与者的协调,统一决定事务的提交或者回滚,从而能够有效的保证分布式数据的一致性。协议说明二阶段提交分为以下两个阶段:阶段一:提交事务请求事务询问

2020-08-31 20:44:16 111

原创 session.timeout.ms heartbeat.interval.ms参数的区别

注:本文是从https://www.cnblogs.com/hapjin/p/10926882.html处摘抄,可直接跳转至原页面。从kafka官网截取最近碰到一个问题,多个业务往向一个Kafka topic发送消息,有些业务的消费量很大,有些业务的消息量很小。因Kafka尚未较好地支持按优先级来消费消息,导致某些业务的消息消费延时的问题。一种简单的解决方案是再增加几个Topic,...

2020-08-25 20:25:56 17

原创 3D仿真电子杂志在线制作

这是一个偶然发现的网址,可以制作3D仿真电子杂志,可以用来制作宣传页 或者 写真 或者 邀请函等等暂时还用不上,记录在这里,说不定以后能用得上。网址是https://flbook.com.cn/下面是网址截图:截图...

2020-08-25 19:31:25 18

转载 6.3.3-如何配置impala自动同步HMS元数据

文档说明在之前的文章中,Fayson 在《CDH6.3的新功能》中提到Impala 的 Automatic Invalidate/Refresh Metadata 新功能,本文主要介绍如何配置Impala基于事件自动同步HMS元数据。测试环境1.CM和CDH版本为6.3.32.操作系统版本为RedHat 7.2操作步骤进入CM界面 > Hive > 配置 > 搜索 启用数据库中的存储通知(英文界面搜索:Enable Stored Notifications in Databas

2020-08-21 16:30:36 90

原创 FlinkSQL sink 到 kafka 中的分区分配规则

场景直接用 FlinkSQL 实现消费kafka中的数据,并经过一系列转换后sink到kafka另一个topic中。INSERT INTO kafka_sink_table SELECT xxx FROM kafka_source_tableFlink SQL的kafka connector里有一个参数sink.partitioner 1,如下:固定:每个Flink分区结束在最多一个Kafka分区。循环:一个Flink分区被分配到Kafka分区循环。自定义FlinkKafkaPartiti

2020-08-19 14:47:28 240

转载 Apache atlas 在CDH集群下的搭建问题及措施

注:此文系转载,仅当自己保留资料,原文链接https://blog.csdn.net/xiaobai51509660/article/details/90718730从apache atlas 下载指定版本的源码,通过查看源码,特别是hive/hbase bridge模块,发现其相关依赖为原生的hbase client客户端,直接编译源码,则无法在hbase同步元数据,并且上述模块存在缺少jar的情况。综合同步CDH5.7.1 hive和hbase经验,总结以下修改步骤:(1) import-hive.

2020-08-18 18:29:56 100 2

原创 CDH 5.12.1 集成 Apache Atlas 0.8.4

1. 版本详情CDH 5.12.1hbase 1.2.0(cdh内置)solr 5.5.1(额外安装)zookeeper 3.4.5(cdh内置)kafka 0.10(cdh内置)hadoop 2.6.0(cdh内置)hive 1.1.0 (cdh内置)2. 组件安装atlas与solr kafka hbase 集成网上都有很多,基本上是一样的3. Atlas 与 Hive 集成这里,与网上的都不一样的3.1将 apache-atlas-0.8.4/hook/hive 下的j

2020-08-18 17:44:10 195 7

原创 flink计算一些报表需求的实现

最近在做一个报表的项目,5分钟和小时的报表采用Flink计算,遇到下面几个问题。输入的原始数据流包含了几十个维度和指标字段,然后会抽取其中的2~3个维度和若干指标进行汇聚计算, 有些还需要计算分组TOPN,还有任务依赖,先计算3个维度,然后从3个维度计算两个维度。我当前的实现流图是:中间数据都是使用Row来传递,最后将Row转换成Avro的Record写入HDFS。现在单个时间粒度要计算近300张报表,任务图太复杂,我将计算任务分到了4个Job(1.7.2版本jobgraph过大提交不上去),每个

2020-08-15 17:27:58 146 1

转载 CSDN-markdown编辑器语法详解

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar

2020-08-15 16:41:02 40

原创 Could not find artifact org.apache.sqoop:sqoop:jar:1.4.6.2.3.99.0-195

编译Atlas时候报错,报错信息为:[ERROR] Failed to execute goal on project sqoop-bridge-shim: Could not resolve dependencies for project org.apache.atlas:sqoop-bridge-shim:jar:0.8.4: Could not find artifact org.apache.sqoop:sqoop:jar:1.4.6.2.3.99.0-195 in aliyunmaven

2020-08-14 16:47:52 251

原创 AppendStreamTableSink doesn‘t support consuming update changes

Flink版本:1.11.0问题:flink-sql,数据经过group by 和left join后写入kafka sink,会在语法校验阶段报错:AppendStreamTableSink doesn't support consuming update changes which is produced by node GroupAggregate解答:这个是正常现象。 如果你用了普通的group by的话,那么它的结果就是有更新的,所以需要sink支持写入update的结果,但是kaf

2020-08-14 10:22:24 1089

原创 关于Flink1.11 CSV Format的一些注意事项

问题:我在Flink1.11版本,使用filesystem connector的时候,读取csv文件并输出到另外一个csv文件遇到了些问题,问题如下:问题1:sink 的path指定具体输出文件名,但是输出的结果是 文件夹形式问题2:在flink1.11的文档中没有找到csv的 ignore-first-line 忽略第一行这个配置测试数据11101322000220200517145507667060666706;911101412000220200515163257249700624970;

2020-08-14 09:57:59 31

原创 Table Api执行sql如何设置sink并行度

问题:TableEnviroment在执行sql的时候如何设置sink的并行度?思路:首先可能想到使用如下方式:tEnv.getConfig().addConfiguration(new Configuration().set(CoreOptions.DEFAULT_PARALLELISM, 128));参见文档:https://ci.apache.org/projects/flink/flink-docs-stable/ops/config.html但是这种方式是一个全局的配置,并不

2020-08-13 20:00:13 122

原创 Flink SQL No Watermark

Q:大家好,请教一个问题我有一条进行 session window 的 sql。这条 sql 消费较少数据量的 topic 的时候,是可以生成 watermark。消费大量的数据的时候,就无法生成watermark。一直是 No Watermark。 暂时找不到排查问题的思路。Flink 版本号是 1.10,kafka 中消息是有时间的,其他的任务是可以拿到这个时间生成watermark。同时设置了 EventTime mode 模式,Blink Planner。DDL:create ta

2020-08-13 17:31:22 194

原创 Elasticsearch中text与keyword的区别

前言本文使用的工具是kibana(Linux—Kibana的安装与测试)在 elasticsearch2.x 版本,字符串数据只有string类型ES更新到5版本后,取消了 string 数据类型,代替它的是 keyword 和 text 数据类型那么 text 和keyword有什么区别呢?我们通过下面的步骤来探索一下:step1 添加数据首先,使用bulk往es数据库中批量添加一些documentPOST /book/novel/_bulk{"index": {"_id": 1}}{

2020-08-13 16:38:15 281

原创 flink sql状态清理问题

备注:本文摘抄与Flink社区邮件列表,是个典型问题,特此记录,Q为提问者,A为解答Q:在使用flink sql的过程中遇到如下情况,在配置了如下选项后:val config = tableConfig.getConfiguration()config.setString(“table.exec.mini-batch.enabled”, “true”)config.setString(“table.exec.mini-batch.allow-latency”, “5s”)config.setSt

2020-08-12 11:51:27 441 1

原创 Flink任务大状态使用filesystem反压

备注:本文摘抄与Flink社区邮件列表,是个典型问题,特此记录,Q为提问者邮件,A为解答邮件Q:Hi,咨询各位一个问题,我们线上任务使用 rocksdb 作为 statebackend 时间久了发现会出现反压,查看服务器监控发现机器io经常是满的,为了保证业务稳定性,现在将statebackend改为filesystem,但是发现已经配置了很大的内存,使用filesystem之后执行cp时间特别长,而且kafka数据源积压很大,大家有遇到这种情况的吗?是使用filesystem的姿势不对吗?A:ch

2020-08-12 09:29:30 80 1

hadoop-2.7.2.zip|hadoop-2.7.2.zip

http://archive.apache.org/dist/hadoop/core/hadoop-2.7.2/ 从官网上直接下载的,下载比较慢。所以这里分享一下 所需积分我设置的是0,如果CSDN官方不修改我设置的积分,也就是说免费下载的

2020-09-16

sqoop-1.4.6.2.3.99.0-195.jar..zip

编译Atlas用 sqoop-1.4.6.2.3.99.0-195.jar 内含安装jar包以及maven手动安装命令 详情可参考我的博客: https://blog.csdn.net/qq_26502245/article/details/108008070

2020-08-14

javax.jms-1.1.jar.7z

内含javax.jms-1.1.jar 安装包下载以及Maven手动安装命令 Maven官方仓库下载不下来资源,只能手动安装 <!-- https://mvnrepository.com/artifact/javax.jms/jms --> <dependency> <groupId>javax.jms</groupId> <artifactId>jms</artifactId> <version>1.1</version> </dependency>

2020-08-14

十大数据分析模型详解_白皮书.pdf

基于多维事件模型,会形成一些常见的数据分析方法,在用户行为分析领域,对这些数分析方法的科学婴童进行理论指导,能够相对的完整的解释用户行为的内在规律,基于此帮助企业实现多维的交叉分析,让企业建立快速反应,适应变化的敏捷商业智能决策。

2020-06-24

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi

mongodb-win32-x86_64-enterprise-windows-64-4.2.1-signed.msi mongodb windows 版本,官网下载的

2020-06-05

Apache Flink结合Apache Kafka实现端到端的一致性语义.pdf

流计算中的一致性语义定义,以及通常系统怎么支持一致性语义,Flink+Fafka如何实现端到端的一致性语义。Flink会定期地产生checkpoint并且把这些checkpoint写入到一个持久化存储上,比如S3或HDFS。这个写入过程是异步的,这就意味着Flink即使在checkpointing过程中也是不断处理输入数据的。

2019-05-16

基于Flink SQL构建实时数仓.pdf

OPPO 作为手机厂商,基于 Android 定制了自己的 ColorOS 系统,当前日活跃用户超过 2 亿。围绕 ColorOS,OPPO 构建了很多互联网应用,比如应用商店、浏览器、信息流等。在运营这些互联网应用的过程中,OPPO 积累了大量的数据,上图右边是整体数据规模的演进:从 2012 年开始每年都是 2~3 倍的增长速度,截至目前总数据量已经超过 100PB,日增数据量超过 200TB。 要支撑这么大的一个数据量,OPPO 研发出一整套的数据系统与服务,并逐渐形成了自己的数据中台体系。

2019-05-16

HDFS智能异构存储方案.pdf

HDFS异构存储,该方案能够智能的区分冷热数据,并按照配置的磁盘模式自动转移数据,做到冷热数据异构智能存储

2019-05-16

Scala编程核心教程(电子版)

学习Scala的全部资料,从最基本的数据结构,到最后高阶函数

2019-03-09

数据仓库数据分层结构

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。 数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2019-03-02

HBase权威指南

HBase还可以利用Zookeeper确保只有一个主服务在运行(HBaseMaster),存储用于发现region的引导位置,作为一个region服务器的注册表,以及实现其他目的。Zookeeper是一个关键组成部分,没有它HBase就无法运作。Zookeeper使用分布式的一系列服务器和Zap协议(确保其状态保存一致)减轻了应用上的负担。         master服务器负责跨region服务器的全局region的负载均衡,将繁忙的服务器中的region移动到负载较轻的服务器中。主服务器(HBaseMaster)不是实际数据存储或者检索路径的组成部分,它仅提供了负载均衡和集群管理,不为region服务器或者客户端提供任何的数据服务,因此是轻量级服务器。此外,主服务器还提供了元数据的管理操作,例如,建表和创建列族(column family)。         region服务器负责为它们的服务的region提供读和写请求,也提供了拆分超过配置大小的region的接口。客户端则直接与region服务器通信,处理所有数据相关的操作。   "数十亿行 X 数百万列 X 数千个版本 = TB级 或 PB级的存储"

2019-03-02

Hadoop权威指南(中文版)

Hadoop编程书籍,由浅入深,介绍Hadoop编程,特别适合初学者以及企业开发人员以及大学生以及其他深造学习者

2019-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除