chuanzhongdu1的专栏

人法地,地法天,天法道,道法自然

基于数据湖架构的大数据平台:品高云与Gartner联合报告

信息化蓬勃发展,带来数据的爆发式增长。在云计算和大数据时代,基于数据开展生产、运营、决策成为常态,数据的存储及应用体系是企业生态运转的中枢神经。 近日,全球最具权威的第三方IT研究与顾问咨询公司Gartner联袂广州市品高软件股份有限公司最新合作的报告:《基于数据湖架构的大数据平台》(Big d...

2018-12-06 10:41:05

阅读数 268

评论数 0

spark2.4 feature

Barrier Execution Mode 机器学相关,不适合map-reduce模式的计算,比如MPI Built-in Higher-order Functions 构造高阶方法,支持多种复杂类型操作(数组等) SELECT array_distinct(array(1, 2, 3,...

2018-11-15 15:05:06

阅读数 287

评论数 0

kafka 新功能

0.10.0 kafka streaming replica 机架感知 message增加timestamp 增加kafka connect rest api 增加max.poll.records参数 兼容不同版 本协议 producer与consumer增加interceptor功...

2018-08-23 14:39:36

阅读数 463

评论数 0

oracle数据变更获得方法

最近做项目,需将DB数据实时到kafka中,甲方使用第三方商用产品,还总有bug,甲方很满足,无语,自己简单看了下,原来只对DCN有印象,下面主要讲下几个技术的区别,也参考了几个文章会贴出来和大家分享oracle有几种获得变更数据的技术triggerDCN(data change notify)C...

2018-07-11 14:25:44

阅读数 206

评论数 2

HAWQ资源管理

在Hadoop集群中,资源通常通过yarn进行管理。yarn为MapReduce作业与其他应用程序分配资源。资源被分配在称为容器的单元中。在HAWQ环境中,segment和node manager控制资源的利用,并执行资源限制。当Hadoop集群中运行HAWQ时,在yarn中HAWQ作为应用程序注...

2018-06-16 15:49:09

阅读数 115

评论数 0

HAWQ

HAWQ是一个hadoop原生的sql引擎同时拥有MPP的优点,同时具有很好的扩展性,HAQW将数据保存HDFSfeature本地或者云端部署sql兼容SQL-92, SQL-99, SQL-2003高性能数倍于其他hadoop sql 引擎极大的并行优化支持事务动态数据流引擎基于虑拟段与本地化的...

2018-06-16 10:06:53

阅读数 396

评论数 0

IoT架构

IoT架构主要分为四个阶段下面分别说明阶段一:传感机产生数据并且将数据转换成有用数据,比如手机位置信息等等除了传感器还包括制动设备也会产生数据,比如它会切断电源,开关阀门等动作传感器与制动设备包括很广,机器人相机,空气质量监控,心跳监控,水位预警,这些设备多数是无线装置或者非电源设备数据的处理可能...

2018-06-06 09:57:23

阅读数 2897

评论数 0

dataops简介

DataOps(数据操作)是一门新兴学科,将DevOps团队与数据工程师和数据科学家角色结合在一起,提供一些工具、流程和组织结构服务于以数据为中心的企业。和DevOps一样,DataOps方法也从敏捷方法中获得了启发。DataOps方法很重视持续交付分析见解,其主要目的是满足客户需求。 DataO...

2018-05-30 10:03:47

阅读数 794

评论数 0

apache pulsar

apache pulsarapache pulsar是yahoo贡献的一个分布式消费中间件,是一个面象企业级的中间件特性支持多租户,同时支持queue及streaming应用,支持多种不同的消费策略,不同的消息保留策略,消息的应答多租户有两个名词:property,namespacepropert...

2018-05-25 15:01:56

阅读数 809

评论数 0

elasticsearch ingest node

ignest node定义一个process pipeline来处理数据,可以替代logstash的某些功能,个人感觉 {   "description" : "...",   "processors" : [ ... ] }    ...

2017-01-11 20:45:16

阅读数 6697

评论数 0

kafka connect

kafka connect是一个kafka与其他系统进行数据流交换的可扩展并且高可用的工具 它可以简单定义connect将大的数据集放入kafka,比如它可以低延迟的将数据库或者应用服务器中的metrics数据放入kafka topic 导出job将kafka topic数据到另外的存储系...

2016-05-11 10:56:33

阅读数 9154

评论数 0

kafka性能与资源考虑

Partitions and Memory Usage replica.fetch.max.bytes  每个partition都分配一个buffer给replica,如果分配1M,如果有1000个partition就需要1G的内存需求考虑有充足的内存 fetch.message.max.byt...

2016-04-13 15:08:49

阅读数 1408

评论数 0

kafka0.9 producer与consumer参数

bootstrap.servers   kafka集群节点列表格式;host1:port1,host2:port2 key.serializer key序列化类型  value.serializer value序列化类型  acks producer需要等待leader响应数量 0不需要等...

2016-03-11 09:39:18

阅读数 2097

评论数 0

kafka0.9 topic level参数

broker级别的参数可以由topic级别的覆写,不是所有的broker参数在topic级别都有对应值 覆写方法  可以在创建或创建后由--config修改 创建时 > bin/kafka-topics.sh --zookeeper localhost:2181 --create -...

2016-03-10 20:01:50

阅读数 1121

评论数 0

kafka 0.9 broker 参数

zookeeper.connect  zookeper所在机器可多个逗号分隔 auto.create.topics.enable 自动创建topic auto.leader.rebalance.enable leader  当一个broker恢复,这个broker只会存储复本,这意味着它不会...

2016-03-10 14:46:01

阅读数 1280

评论数 0

两种高性能I/O设计模式(Reactor/Proactor)的比较

转载原文地址http://www.csdn.net/article/2015-09-10/2825669 综述 这篇文章探讨并比较两种用于TCP服务器的高性能设计模式。 除了介绍现有的解决方案,还提出了一种更具伸缩性,只需要维护一份代码并且跨平台的解决方案(含代码示例),以及其在不同平...

2015-09-10 14:53:09

阅读数 298

评论数 0

pidstat详解

pidstat - Report statistics for Linux tasks(显示进程(任务)的相关的统计) pidstat主要用于监控全部或指定进程占用系统资源的情况,如CPU,内存、设备IO、任务切换、线程等。pidstat首次运行时显示自系统启动开始的各项统计信息,之后运行pid...

2015-06-04 10:50:58

阅读数 2809

评论数 0

性能测试工具神图

2015-06-03 20:21:06

阅读数 378

评论数 0

netstat详解

一.功能与说明: 1.netstat:用于显示与IP、TCP、UDP和ICMP协议相关的统计数据,一般用于检验本机各端口的网络连接情况 主要作用是:查看端口使用情况 2.Recv-Q:socket接收到,却没有被进程取走的数据(字节单位) Send-Q:socket发送出去,却没有收到远程...

2015-06-03 20:19:08

阅读数 751

评论数 0

linux sar命令详解

sar命令常用格式 sar [options] [-A] [-o file] t [n] 其中: t为采样间隔,n为采样次数,默认值是1; -o file表示将命令结果以二进制格式存放在文件中,file 是文件名。 options 为命令行选项,sar命令常用选项如下...

2015-06-03 19:49:09

阅读数 381

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭