![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据组件
文章平均质量分 59
大数据组件
哥伦布112
Apache IoTDB contributor
https://github.com/WilliamSong11/iotdb
展开
-
使用clickhouse遇到的问题
连接ck服务器提示 ' ClickHouse exception, code: 210'原因:ck默认的配置不支持远程访问。解决方案:设置ClickHouse远程访问1.创建ClickHouse通用配置文件vi /etc/metrika.xml,在文件中添加如下内容:<yandex><networks><ip>::/0</ip></networks></yandex>2.打开ClickHouse用户配置文原创 2020-07-28 21:01:30 · 5286 阅读 · 1 评论 -
hive优化
优化时,把Hive sql当做map reduce程序来读,会有意想不到的惊喜。理解Hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几转载 2017-03-03 20:39:05 · 223 阅读 · 0 评论 -
mapreduce中IntWritable(1)的含义
IntWritable是 Hadoop 中实现的用于封装 Java 数据类型的类,它的原型是public IntWritable(int value)和public IntWritable()两种。所以new IntWritable(1)是创建了这个类的一个对象,而数值1这是参数。在Hadoop中它相当于java中Integer整型变量,为这个变量赋值为1.原创 2017-02-06 10:30:58 · 15507 阅读 · 3 评论 -
kafka的发行版选择
今天继续和大家聊一下,kafka的各种发行版。kafka历经数年的发展,从最初纯粹的消息引擎,到近几年开始在流处理平台生态圈发力,衍生出了各种不同特性的版本。你了解几种kafkakafka的确有好几种,这里我不是指他的版本,是指存在多个组织或公司发布不同特性的kafka。你应该听说过Linux发行版,比如我们熟知的CentOS、RedHat、Ubuntu等,它们都是Linux系统,其实就是因为它们是不同公司发布的Linux系统,即不同的发行版。kafka也同样有多个发行版。Apache Kafk原创 2020-06-16 18:35:44 · 314 阅读 · 0 评论 -
kafka和其他消息队列的对比
RabbitMQ和kafka从几个角度简单的对比业界对于消息的传递有多种方案和产品,本文就比较有代表性的两个MQ(rabbitMQ,kafka)进行阐述和做简单的对比,在应用场景方面,RabbitMQ,遵循AMQP协议,由内在高并发的erlanng语言开发,用在实时的对可靠性要求比较高的消息传递上。kafka是Linkedin于2010年12月份开源的消息发布订阅系转载 2017-04-29 12:34:13 · 6593 阅读 · 0 评论 -
各消息队列对比,Kafka深度解析
背景介绍Kafka简介Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,并保证即使对TB级以上数据也能保证常数时间的访问性能高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输支持Kafka Server间的消息分区,及分布式消息消费,同时保证每个partition内的消息顺序传输同转载 2017-04-29 12:21:29 · 8081 阅读 · 0 评论 -
kafka处理超大消息
Kafka设计的初衷是迅速处理短小的消息,一般10K大小的消息吞吐性能最好(可参见LinkedIn的kafka性能测试)。但有时候,我们需要处理更大的消息,比如XML文档或JSON内容,一个消息差不多有10-100M,这种情况下,Kakfa应该如何处理?针对这个问题,有以下几个建议: 最好的方法是不直接传送这些大的数据。如果有共享存储,如NAS, HDFS, S3等,可以把这些大转载 2017-04-27 01:14:33 · 1996 阅读 · 0 评论 -
构建安全kafka集群
核心提示: Kafka是由LinkedIn设计的一个高吞吐量、分布式、基于发布订阅模式的消息系统,使用Scala编写,它以可水平扩展、可靠性、异步通信和高吞吐率等特性而被广泛使用。Kafka是由LinkedIn设计的一个高吞吐量、分布式、基于发布订阅模式的消息系统,使用Scala编写,它以可水平扩展、可靠性、异步通信和高吞吐率等特性而被广泛使用。目前越来越多的开源分布式处理系统都支转载 2017-04-27 01:13:09 · 587 阅读 · 0 评论 -
kafka性能参数和压力测试
上一篇文章介绍了Kafka在设计上是如何来保证高时效、大吞吐量的,主要的内容集中在底层原理和架构上,属于理论知识范畴。这次我们站在应用和运维的角度,聊一聊集群到位后要怎么才能最好的配置参数和进行测试性能。Kafka的配置详尽且复杂,想要进行全面的性能调优需要掌握大量信息,我也只是通过工作中的一些实战经验来筛选出对集群性能影响最大的几个要点,接下来要阐述的观点也仅限于我所描述的环境下,请大家根据自己转载 2017-04-27 01:09:13 · 7205 阅读 · 0 评论 -
kafka高吞吐量性能解密
此文章来自于我司高磊童靴kafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲、异步通信、汇集日志、系统解耦等方面。相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分功能特性的同时,还提供了超一流的读写性能。本文将针对Kafka性能方面进行简单分析,首先简单介绍一下Kafka的架构和涉及到的名词:1. Topic:用于划分Message的逻辑概念,转载 2017-04-27 01:06:08 · 8894 阅读 · 0 评论 -
kafka比其他消息快的原因
Kafka的消息是保存或缓存在磁盘上的,你可能会认为:在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间。事实上,磁盘读写的快慢取决于你怎么使用它了(顺序读写、随机读写)。Kafka的设计目标是高吞吐量,它比其它消息系统快的原因体现在以下几方面:1、Kafka操作的是序列文件I / O(序列文件的特征是按顺序写,按顺序读),为保证顺序,Kafka强制点对点的按顺序传递消息,这意转载 2017-04-27 01:01:05 · 2691 阅读 · 0 评论 -
kafka优点以及新特性
kafka的优点:1.主要是用来解决百万级别的数据中生产者和消费者之间数据传输的问题2.可以将一条数据提供给多个接收这做不同的处理3.当两个系统是隔绝的,无法通信的时候,如果想要他们通信就需要重新构建其中的一个工程,而kafka实现了生产者和消费者之间的无缝对接。4.大数据时代,最重要的是数据的收集和分析,这些数据包括:1).用户的行为数据2).应用转载 2017-04-26 21:23:03 · 675 阅读 · 0 评论 -
kafka的Consumer均衡算法
有一个topic:lijietest,然后这个topic的partition和他们所在的broker的图如下:1.其中 broker有两个,也就是服务器有两台。2.partition有6个,分布按照如图所示,按照哈希取模的算法分配。3.消费者有8个,他们属于同一个消费组。如果按照如图所示,那么这一个消费组中的消费者会怎么取kafka的数据呢? 其实kaf转载 2017-04-24 18:58:40 · 1143 阅读 · 1 评论 -
kafka中partition和消费者对应关系
1个partition只能被同组的一个consumer消费,同组的consumer则起到均衡效果消费者多于partitiontopic: test 只有一个partition创建一个topic——test,bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --part转载 2017-04-24 18:47:20 · 4132 阅读 · 1 评论 -
用elasticsearch和kibana 进行简单的实时数据报表分析
前言 elasticsearch公司已经渐渐把ES变成为实时分析的工具,相比solr,es在实用产品化上确实领先很多。ES公司主推的ELK套件就是完成实时日志分析的完整解决方案,其中的kibana是一个简易报表工具,完全针对es进行开发,同类型产品几乎没有竞争者;logstash是日志拉取采集的工具,有很多同类产品,比如flume, fluentd。ELK的配置安装网上有挺转载 2017-05-02 00:25:45 · 7955 阅读 · 0 评论 -
Unexpected error. Unable to verify database connection.,CDH HUE 安装报错
在这一步进行hue连接Mysql测试时,报错Unexpected error. Unable to verify database connection.看日志信息,在 /var/log/cloudera-scm-server 该目录下。django.core.exceptions.ImproperlyConfigured: Error loading MySQLdb modu...原创 2020-01-30 20:57:53 · 633 阅读 · 0 评论 -
消息队列比较以及通信问题
消息队列开发语言协议支持设计模式持久化支持事务支持负载均衡支持功能特点缺点RabbitMQErlangAMQP,XMPP,SMTP,STOMP代理(Broker)模式(消息在发送给客户端时先在中心队列排队)支持持久化到文件不支持支持性能较好;管理界面较丰富;在互联网公司有较大规模的应用;设计的核心是保证消息正确递交(认为消费者转载 2017-04-29 12:48:16 · 805 阅读 · 0 评论 -
RabbitMQ,ActiveMq,ZeroMq比较
RabbitMQ,ActiveMq,ZeroMq比较==结论==:ZeroMq 最好,RabbitMq 次之, ActiveMq 最差。 ==来源==:http://blog.x-aeon.com/2013/04/10/a-quick-message-queue-benchmark-activemq-rabbitmq-hornetq-qpid-apollo/==测试环境==:转载 2017-04-29 12:46:28 · 585 阅读 · 0 评论 -
四款消息队列的比较
我花了一周的时间评估比较了一下各种消息队列产品,非常的有趣。我做这个事的动机是因为一个客户有一个很高性能需求。他们的消息信息突破了1百万个并发。目前他们使用的是SQL server,并不理想,我建议他们使用消息队列服务器。为了对一些相似的候选产品获得一个全面的但是粗浅的性能上的了解,我们它们放在一起做了个测试。我让每个消息产品各发送和接受1百万千条1K的消 息。测试准备的有些仓促,我并没有转载 2017-04-29 12:43:39 · 3299 阅读 · 1 评论 -
消息队列
1 前言 本文介绍的相关产品主要针对实时数据的处理这一应用方向,包括各种消息中间件的介绍以及实时数据处理框架的介绍。首先通过概念梳理,了解当前流行的产品技术,分析相互关系、定位;再依次介绍各个产品的能力和特点,分析优缺点;最终根据产品技术的进行。2 主要概念l 消息中间件 消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流,并转载 2017-04-29 12:40:57 · 1515 阅读 · 0 评论 -
flink 端到端的 exactly-once(精确一次)
从source 到 flink的exactly-once 文章很多自己看。问题来源于群里一个人的提问。flink运算结果在落地的时候怎么保证exactly-once。目前两种方式,1、一种是利用幂等性。举例说明,假设现在 要把mysql的数据同步到oracle。有Insert记录和update记录。怎么保证oracle中结果是正确的 。oracle中加一个主键。那么多次Ins...原创 2020-04-15 16:09:51 · 531 阅读 · 0 评论 -
spark 和 elk 技术栈对比?
网络相关大数据分析架构用kafka + spark + hadoop比较好,还是ELK的解决方案比较好?不考虑机器学习,主要是用到spark的sql和streaming来做定时处理和数据聚合查询,发现elk也能完成同样的功能,ELK是不是相对来说轻量很多,更容易部署和维护?不是同一个领域的东西elk主要做搜索,日志,不太适合做大数据统计,当然数据量不大,或者在现有数据上顺便转载 2017-03-31 12:55:49 · 4875 阅读 · 0 评论 -
ELK到底是什么鬼?辣么多公司用!
Sina、饿了么、携程、华为、美团、freewheel、畅捷通 、新浪微博、大讲台、魅族、IBM...... 这些公司都在使用ELK!ELK!ELK!ELK竟然重复了三遍,是个什么鬼?一、ELK是什么鬼?ELK实际上是三个工具的集合,Elasticsearch + Logstash + Kibana,这三个工具组合形成了一套实用、易用的监转载 2017-03-31 00:03:35 · 3870 阅读 · 0 评论 -
hbase调优汇总
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载均衡。原创 2017-05-07 22:05:26 · 394 阅读 · 0 评论 -
Hbase高并发读写优化
淘宝搜索的个性化离线实时分析系统Pora已升级至Pora2,Pora2是在基于Yarn的流式计算框架IStream基础上开发的,同时为保证数据和消息的实时处理系统中较多地使用了Hbase,是一个典型的高并发读写HBase的分布式应用。系统在发布之初遇到了比较严重的性能问题,表现为处理速度跟不上实时日志,并且整个Hadoop/HBase集群压力大,连带其它应用受影响。经过排查发现问题主要都出转载 2017-04-26 22:55:22 · 9971 阅读 · 0 评论 -
Hbase各级别的锁以及读写阻塞
为了保证并发操作时数据的一致性和性能,HBase中应用了各种各样高效的可重入锁,包括行级别的rowlock、mvcc,region级别的读写锁,store级别的读写锁,memstore级别的读写锁等等。1、 行级别的锁RowLockHBase中为了解决行级别在并发操作中的一致性问题,采用了Rowlock机制。保证只有同一个线程同时对该行做操作。当然rowlock有lease租约的概念,超转载 2017-04-26 22:51:18 · 1150 阅读 · 0 评论 -
Hbase性能问题以及解决方案
Hbase是一个相对较复杂的分布式系统,并发写入的性能非常高。然而,分布式系统从结构上来讲,也相对较复杂,模块繁多,各个模块之间也很容易出现一些问题,所以对像HBase这样的大型分布式系统来说,优化系统运行,及时解决系统运行过程中出现的问题也变得至关重要。正所谓:“你”若安好,便是晴天;“你”若有恙,我便没有星期天。历史现状HBase交接到我们团队手上时,已经在线上运行有一大段时间转载 2017-04-26 22:47:41 · 2539 阅读 · 0 评论 -
Mysql的四种事物隔离级别
按照SQL:1992 事务隔离级别,InnoDB默认是可重复读的(REPEATABLE READ)。MySQL/InnoDB 提供SQL标准所描述的所有四个事务隔离级别。你可以在命令行用--transaction-isolation选项,或在选项文件里,为所有连接设置默认隔离级别。例如,你可以在my.inf文件的[mysqld]节里类似如下设置该选项:transaction-isola转载 2017-04-26 21:19:10 · 402 阅读 · 0 评论 -
HBase 事务和并发控制机制原理
作为一款优秀的非内存数据库,HBase和传统数据库一样提供了事务的概念,只是HBase的事务是行级事务,可以保证行级数据的原子性、一致性、隔离性以及持久性,即通常所说的ACID特性。为了实现事务特性,HBase采用了各种并发控制策略,包括各种锁机制、MVCC机制等。本文首先介绍HBase的两种基于锁实现的同步机制,再分别详细介绍行锁的实现以及各种读写锁的应用场景,最后重点介绍MVCC机制的实现策略转载 2017-04-26 20:30:45 · 455 阅读 · 0 评论 -
hbase调优
1. 关于内存Hbase.hregion.memstore.mslab.enabled默认值:true说明:减少因内存碎片导致的Full GC,提高整体性能。调优:详见 http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocation2. 启用LZO压缩LZO对比Hbase默认的GZip转载 2017-04-25 02:42:07 · 372 阅读 · 0 评论 -
hbase的内容查询
http://abloz.com/2012/08/22/Hbase-how-like-the-sql-like-query-value-as.html一、shell 查询hbase 查询相当简单,提供了get和scan两种方式,也不存在多表联合查询的问题。复杂查询需通过Hive创建相应外部表,用sql语句自动生成mapreduce进行。但是这种简单,有时为了达到目的转载 2017-04-25 02:40:37 · 1102 阅读 · 0 评论 -
Hbase查询速度快的缘由
你的快速是指什么? 是根据亿级的记录中快速查询,还是说以实时的方式查询数据。A:如果快速查询(从磁盘读数据),hbase是根据rowkey查询的,只要能快速的定位rowkey, 就能实现快速的查询,主要是以下因素: 1、hbase是可划分成多个region,你可以简单的理解为关系型数据库的多个分区。 2、键是排好序了的 3、按列存储的首先,转载 2017-04-25 02:39:23 · 1978 阅读 · 0 评论 -
hbase参数配置优化
因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默认值:3分钟(180000ms)说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,Reigon转载 2017-04-25 02:37:38 · 538 阅读 · 0 评论 -
HBase总结(十一)hbase Java API 介绍及使用示例
几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(Column Family)Put列修饰转载 2017-03-30 23:54:49 · 423 阅读 · 0 评论 -
HBase和NoSQL区别
众所周知,对比传统的关系型数据库,NoSQL有着更为复杂的分类——键值、面向文档、列存储、搜索引擎等等。繁多的分类让NoSQL有着更强的业 务针对性,因此在性能上对比传统关系型数据库有着颠覆性的提升。然而这种针对性同样给企业带来了一定程度的困扰,比如专业工程师的培养/聘请、架构的变迁 等,同时这种群雄割据的局面也不利于NoSQL的整体发展。通用、统一才能有更好的发展;随着NoSQL的发展,我们似乎转载 2017-03-30 00:46:33 · 11136 阅读 · 0 评论 -
Hbase相对于Mysql的优势
Hadoop是离线计算平台,其中包括分布式文件系统(HDFS)和分布式计算(MapReduce),这本身是无法对响应时间做保证的。但是目前在Hadoop之上的生态系统越来越完善,其中HBase就是支持海量数据、高并发的在线数据库,应对这种场景就非常适合。HBase在这次双十一中与MySQL等在线数据库共同作为线上库使用,承担了重要的责任,并创下了并在全天高压力之下无故障的佳绩。另外非Hadoop生转载 2017-03-06 00:50:47 · 6243 阅读 · 0 评论 -
Hbase和传统数据库的区别
在说HBase之前,我想再唠叨几句。做互联网应用的哥们儿应该都清楚,互联网应用这东西,你没办法预测你的系统什么时候会被多少人访问,你面临的用户到底有多少,说不定今天你的用户还少,明天系统用户就变多了,结果您的系统应付不过来了了,不干了,这岂不是咱哥几个的悲哀,说时髦点就叫“杯具啊”。其实说白了,这些就是事先没有认清楚互联网应用什么才是最重要的。从系统架构的角度来说,互联网应用更加看重系统性转载 2017-03-03 20:57:20 · 4808 阅读 · 0 评论 -
Hbase优化总结
1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载转载 2017-04-01 00:40:13 · 263 阅读 · 0 评论 -
Hive 中的复合数据结构简介以及一些函数的用法说明
目前 hive 支持的复合数据类型有以下几种:map(key1, value1, key2, value2, ...) Creates a map with the given key/value pairsstruct (val1, val2, val3, ...) Creates a struct with the given field values. Struct fie转载 2017-03-20 18:37:58 · 524 阅读 · 0 评论 -
hive partition的使用
一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节1、一个表可以拥转载 2017-03-17 10:14:42 · 533 阅读 · 0 评论