chuanzhongdu1-CSDN博客

原创 apache pulsar参数

BookKeeperbookiePort bookeeper server监听端口allowLoopback 是否接受回127.0.0.1地址listeningInterface 默认网口，比如：eth0journalDirectory WAL存入目录ledgerDirectories 帐目快照保存地址，推荐WAL与该目录不同硬盘ledgerManagerType boo...

2019-11-26 13:42:56 2688

原创 presto内存分配参数

假如设置最大Heap内存为35G需要考虑的Heap最大值因素，因为需要给系统与其他守护进程留有空间，所以最好不要将内存设置为机器内存大小prestor参数query.max-memory-per-node每个机器上用于执行用户任务的内存大小，比如：排序等操作,超出限制将killquery.max-total-memory-per-node每个节点上用于系统与用户任务的内存大...

2019-07-16 15:32:19 3994 2

转载基于数据湖架构的大数据平台：品高云与Gartner联合报告

信息化蓬勃发展，带来数据的爆发式增长。在云计算和大数据时代，基于数据开展生产、运营、决策成为常态，数据的存储及应用体系是企业生态运转的中枢神经。近日，全球最具权威的第三方IT研究与顾问咨询公司Gartner联袂广州市品高软件股份有限公司最新合作的报告：《基于数据湖架构的大数据平台》（Big data platform based on Data Lake Architecture）正式发布，双...

2018-12-06 10:41:05 1580

原创 spark2.4 feature

Barrier Execution Mode机器学相关，不适合map-reduce模式的计算，比如MPIBuilt-in Higher-order Functions构造高阶方法，支持多种复杂类型操作（数组等）SELECT array_distinct(array(1, 2, 3, null, 3));数组去重SELECT array_intersect(array(1, ...

2018-11-15 15:05:06 651

原创 kafka 新功能

0.10.0kafka streamingreplica 机架感知message增加timestamp增加kafka connect rest api增加max.poll.records参数兼容不同版本协议producer与consumer增加interceptor功能增加exclude.internal.topics参数 0.10.1增加基于time...

2018-08-23 14:39:36 1150

原创 oracle数据变更获得方法

最近做项目，需将DB数据实时到kafka中，甲方使用第三方商用产品，还总有bug,甲方很满足，无语，自己简单看了下，原来只对DCN有印象,下面主要讲下几个技术的区别，也参考了几个文章会贴出来和大家分享oracle有几种获得变更数据的技术triggerDCN(data change notify)CDC(change data capture)oracle streamtrigger大家都熟悉，肯定...

2018-07-11 14:25:44 912 2

翻译 HAWQ资源管理

在Hadoop集群中，资源通常通过yarn进行管理。yarn为MapReduce作业与其他应用程序分配资源。资源被分配在称为容器的单元中。在HAWQ环境中，segment和node manager控制资源的利用，并执行资源限制。当Hadoop集群中运行HAWQ时，在yarn中HAWQ作为应用程序注册。HAWQ的资源管理器与yarn通信以获取资源或者释放资源。资源队列是管理HAWQ系统中管理并发度的...

2018-06-16 15:49:09 288

翻译 HAWQ

HAWQ是一个hadoop原生的sql引擎同时拥有MPP的优点，同时具有很好的扩展性，HAQW将数据保存HDFSfeature本地或者云端部署sql兼容SQL-92, SQL-99, SQL-2003高性能数倍于其他hadoop sql 引擎极大的并行优化支持事务动态数据流引擎基于虑拟段与本地化的弹性引擎支持不同类型的分区表支持压缩：snappy/gzip支持多种语言的UDFMADLib库支持机...

2018-06-16 10:06:53 880

原创 IoT架构

IoT架构主要分为四个阶段下面分别说明阶段一：传感机产生数据并且将数据转换成有用数据，比如手机位置信息等等除了传感器还包括制动设备也会产生数据，比如它会切断电源，开关阀门等动作传感器与制动设备包括很广，机器人相机，空气质量监控，心跳监控，水位预警，这些设备多数是无线装置或者非电源设备数据的处理可能发生在四层中的不同层，这需要根据需求的场景与机器的能力来选择，比如需要深度学习，就需要将数据传入数据...

2018-06-06 09:57:23 6231

原创 dataops简介

DataOps(数据操作)是一门新兴学科，将DevOps团队与数据工程师和数据科学家角色结合在一起，提供一些工具、流程和组织结构服务于以数据为中心的企业。和DevOps一样，DataOps方法也从敏捷方法中获得了启发。DataOps方法很重视持续交付分析见解，其主要目的是满足客户需求。 DataOps团队重视分析工作。他们通过所提供的见解来衡量数据分析工作的性能。DataOps团队会接受变化，并始...

2018-05-30 10:03:47 8170

原创 apache pulsar

apache pulsarapache pulsar是yahoo贡献的一个分布式消费中间件,是一个面象企业级的中间件特性支持多租户，同时支持queue及streaming应用，支持多种不同的消费策略，不同的消息保留策略，消息的应答多租户有两个名词：property,namespaceproperty相当于租户，namespace包括多个topic,一个property有多个namespace权限控...

2018-05-25 15:01:56 1388

翻译 elasticsearch ingest node

ignest node定义一个process pipeline来处理数据，可以替代logstash的某些功能，个人感觉{ "description" : "...", "processors" : [ ... ]} description描述功能，processors定义处理列表put api可以更新和创建新的pipe

2017-01-11 20:45:16 9188

翻译 kafka connect

kafka connect是一个kafka与其他系统进行数据流交换的可扩展并且高可用的工具它可以简单定义connect将大的数据集放入kafka,比如它可以低延迟的将数据库或者应用服务器中的metrics数据放入kafka topic导出job将kafka topic数据到另外的存储系统或查询系统或者离线系统进行批量处理kafka connect包括以下特点

2016-05-11 10:56:33 10231

翻译 kafka性能与资源考虑

Partitions and Memory Usagereplica.fetch.max.bytes 每个partition都分配一个buffer给replica,如果分配1M,如果有1000个partition就需要1G的内存需求考虑有充足的内存fetch.message.max.bytes同样的考虑也适用于consumer，对于大文件需要确保有充足的内存接收，大文件可能

2016-04-13 15:08:49 2815

原创 kafka0.9 producer与consumer参数

bootstrap.servers kafka集群节点列表格式;host1:port1,host2:port2key.serializer key序列化类型 value.serializer value序列化类型 acks producer需要等待leader响应数量 0不需要等待应答，1代表leader成功写入本地log但不等待follow,-1代表等待insyn

2016-03-11 09:39:18 2310

原创 kafka0.9 topic level参数

broker级别的参数可以由topic级别的覆写，不是所有的broker参数在topic级别都有对应值覆写方法可以在创建或创建后由--config修改创建时> bin/kafka-topics.sh --zookeeper localhost:2181 --create --topic my-topic --partitions 1 --repl

2016-03-10 20:01:50 1629

原创 kafka 0.9 broker 参数

zookeeper.connect zookeper所在机器可多个逗号分隔auto.create.topics.enable 自动创建topicauto.leader.rebalance.enable leader 当一个broker恢复，这个broker只会存储复本，这意味着它不会参与任何读写，造成了集群的不平衡，开启，kafka自动做balancebackgro

2016-03-10 14:46:01 1480

转载两种高性能I/O设计模式(Reactor/Proactor)的比较

转载原文地址http://www.csdn.net/article/2015-09-10/2825669综述这篇文章探讨并比较两种用于TCP服务器的高性能设计模式。除了介绍现有的解决方案，还提出了一种更具伸缩性，只需要维护一份代码并且跨平台的解决方案(含代码示例)，以及其在不同平台上的微调。此文还比较了java、c#、c++对各自现有以及提到的解决方案的实现性能。系统I

2015-09-10 14:53:09 410

转载 pidstat详解

pidstat - Report statistics for Linux tasks（显示进程（任务）的相关的统计）pidstat主要用于监控全部或指定进程占用系统资源的情况，如CPU，内存、设备IO、任务切换、线程等。pidstat首次运行时显示自系统启动开始的各项统计信息，之后运行pidstat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。

2015-06-04 10:50:58 3376

原创性能测试工具神图

2015-06-03 20:21:06 517

转载 netstat详解

一.功能与说明：1.netstat：用于显示与IP、TCP、UDP和ICMP协议相关的统计数据，一般用于检验本机各端口的网络连接情况主要作用是：查看端口使用情况2.Recv-Q：socket接收到，却没有被进程取走的数据（字节单位）Send-Q：socket发送出去，却没有收到远程对方确认的数据（字节单位）二.参数含义介绍：1.常用的：-a (all) 显示所有

2015-06-03 20:19:08 1073

转载 linux sar命令详解

sar命令常用格式sar [options] [-A] [-o file] t [n]其中：t为采样间隔，n为采样次数，默认值是1；-o file表示将命令结果以二进制格式存放在文件中，file 是文件名。options 为命令行选项，sar命令常用选项如下：-A：所有报告的总和-u：输出CPU使用情况的统计信息-v：输出

2015-06-03 19:49:09 479

转载 free命令详解

解释一下Linux上free命令的输出。　　下面是free的运行结果，一共有4行。为了方便说明，我加上了列号。这样可以把free的输出看成一个二维数组FO(Free Output)。例如：FO[2][1] = 24677460FO[3][2] = 10321516 1 2 3 4

2015-06-03 19:45:39 591

原创 scala使用

函数参数化def methodParameter(string: String, doubles: Array[Double], condition: String => Boolean, values: Array[Double] => Double) = { if (condition(string)) values(doubles) else

2015-02-14 21:49:11 1251

原创 hadoop 64 native库问题解决方式

需要的环境UnixJDK 1.6+* Maven 3.0 or later* Findbugs 1.3.9 (if running findbugs)* ProtocolBuffer 2.5.0* CMake 2.6 or newer (if compiling native code)yum install lzo-devel zlib-devel gcc a

2014-12-29 20:08:19 2554

原创 hadoop2.4.1 spark1.0.1编译

hadoop2.4.1使用protobuf2.5而s

2014-08-09 11:24:04 1109

原创贝叶斯算法

贝叶斯算法是一种分类算法，它以贝叶斯公式为基

2014-05-18 11:06:17 1210

转载一个杭州人的美国求医经历

今天推送的这篇文章，是一位叫“倾心2007”的网友发在19楼上的一个帖子。2012年春节，她老公被诊断为脊柱肿瘤，初诊时手术概率几乎为零。最后他们决定赴美治疗，这是她写的赴美就医经历。她在文章的开头说，去美国看病只是人生绝望中孤注一掷的选择。写这个帖子，是想让更多人知道，“绝境还有其他希望”。当然，她写的不全是个励志故事。她还写道，在美国看病里时3个月，这期间没

2014-05-11 17:58:44 1650

转载海量数据相似度计算之simhash和海明距离

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本

2014-05-10 09:20:25 962

转载非常好的理解遗传算法的例子

遗传算法的手工模拟计算示例为更好地理解遗传算法的运算过程，下面用手工计算来简单地模拟遗传算法的各个主要执行步骤。例：求下述二元函数的最大值：

2014-05-10 09:14:36 1099

原创 CDH4 impala安装配置

Cloudera发布了hadoop实时查询开源项目Impala，根据多款产品实测表明，它比原来基于MapReduce的Hive SQL查询速度提升3～90倍。Impala是Google Dremel的模仿，但在SQL功能上青出于蓝胜于蓝。Impala的安裝包括三部份：impalad──Impala的守护进程。计划和执行对HDFS和Hbase数据的查询（Plans and

2013-07-31 09:49:55 3253 1

原创 Fedora 17 安装字体

下载相关字体，解压到/usr/share/fonts目录下chmod 755 目录名cd 目录chmod 644 *建立字体缓存：cd /usr/share/fonts/目录mkfontscalemkfontdirfc-cache -fv重启起因是wps for fedora安装成功，但启动报错缺少字体，上述方法可以解决

2013-05-16 08:55:13 710

原创 Raid简介及区别

RAID是1988等几人提出来的。从那以后，磁盘阵列技术发展很快，并逐渐走向成熟。RAID及高性能(Performance)通过多个磁盘组织在一起作为一个逻辑卷提供磁盘跨越功能Oslash;读出多个磁盘以提高访问磁盘的速度RAID0 分布在多个物理磁盘上，可以并行读/系统的高性能，成本最低的方案。由于没有容错功能，RAID0适用于低成本，低可靠性的台式系统，在这里，高速的数据吞吐比

2013-02-22 14:58:54 556

转载 Google Dremel 原理 - 如何能3秒分析1PB

简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群，处理PB级别的数据。MapReduce处理一个数据，需要分钟级的时间。作为MapReduce的发起人，Google开发了Dremel将处理时间缩短到秒级，作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎，获得了很大的成功。最近Apache计划推出Dreme

2012-12-28 09:28:24 602

原创 Bit-map java实现

private static int BITSPERWORD = 32;private static int SHIFT = 5;private static int MASK = 0x1F;private static int N = 99999999;static int[] a = new int[1 + N / BITSPERWORD];static void

2012-09-28 15:38:19 660

转载 Bloom filter简介

日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中，遇到一个新元素时，将它和集合中的元素直接比较即可。一般来讲，计算机中的集合是用哈希

2012-08-14 16:57:02 499

原创 hadoop hdfs追加写

public class PutMerge {/*** @param args* void* @throws IOException*/public static void main(String[] args) throws IOException {// TODO Auto-generated method stub Confi

2012-08-13 18:18:47 2253

原创 jboss下将日志文件输出到不同文件

properies文件格式 log4j.logger.cn.com.Test= DEBUG, testlog4j.appender.test=org.apache.log4j.FileAppenderlog4j.appender.test.File=${myweb.root}/WEB-INF/log/test.loglog4j.appender.test.layout=org.ap

2012-07-31 10:34:13 918

原创 jdk1.7新特性

1.diamond operator(菱形操作符)以前代码Map> trades = new TreeMap>现在可以这样Map> trades = new TreeMap 可以根据前面的类型推断后面的类型,但<>是必须的2.Using strings in switch statementsswitch语句可以使用stringpub

2012-07-25 08:54:34 1615

原创配置aspectwerkz在jboss

在载aspectwerkzhttp://dist.codehaus.org/aspectwerkz/distributions/aspectwerkz-2.0.zip?download解压修改jboss run.shaoplib="/usr/opensource/aspectwerkz-2.0/aoplib"JAVA_OPTS="$JAVA_OPTS -javaagent

2012-07-19 10:58:37 641

空空如也

空空如也