大数据技术
文章平均质量分 78
白水不开
这个作者很懒,什么都没留下…
展开
-
Kafka学习(6)——优化指南
Kafka设计的初衷是迅速处理短小的消息,一般10K大小的消息吞吐性能最好(可参见LinkedIn的kafka性能测试)。但有时候,我们需要处理更大的消息,比如XML文档或JSON内容,一个消息差不多有10-100M,这种情况下,Kakfa应该如何处理?针对这个问题,有以下几个建议:最好的方法是不直接传送这些大的数据。如果有共享存储,如NAS, HDFS, S3等,可以把这些大的文件存放到共享存储原创 2016-11-02 16:23:38 · 9723 阅读 · 0 评论 -
Flink on yarn 常见错误
1 Retrying connect to server2 Unable to get ClusterClient status from Application Client3 Cannot instantiate user function4 Could not resolve substitution to a value: ${akka.stream.materializer}...原创 2018-05-19 16:26:46 · 14129 阅读 · 2 评论 -
Kafka学习(1)——kafka文档阅读笔记
以下内容,仅为档Kafka Documentation的阅读笔记。阅读时的版本为0.9.0.x。1. 开始 1.1 引言1.2 使用场景1.3 快速开始1.4 相关技术生态1.5 升级2. API 2.1 Producer API2.2 Consumer API 2.2.1 高级消费者API(旧)2.2.2 低级消费者API(旧)2.2.3 消费者API(新)3. 配置原创 2016-11-02 10:15:13 · 1205 阅读 · 0 评论 -
Kafka学习(5)——常用集群操作
1. 启动bin/kafka-server-start.sh config/server.propertiesbin/kafka-server-start.sh -daemon ./config/server.properties2. 关闭bin/kafka-server-stop.sh3. topic列表bin/kafka-topics.sh --list --zookeeper silkw原创 2016-11-02 16:11:06 · 392 阅读 · 0 评论 -
Kafka学习(4)——生产消费实践
1. 基于0.8的生产者和消费者maven依赖:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>0.9.0.1</version></dependency><dependency> <groupId>org.apache原创 2016-11-02 16:10:07 · 4299 阅读 · 0 评论 -
Kafka学习(2)——理解Kafka
1 框架Kafka是一种分布式的发布/订阅消息系统。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能。 高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。 支持Kafka Server间的消息分区,及分布式消费,同时保证每个Partition内的消息顺序传输。 同时支持离线数据处理和实时数据处原创 2016-11-02 10:22:40 · 1254 阅读 · 0 评论 -
Kafka学习(3)——测试
首先,简单介绍下kafka。Kafka是由LinkedIn开发的分布式的、基于发布/订阅的消息系统,以可水平扩展和高吞吐率而被广泛使用。主要设计目标如下:以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能。高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。支持Kafka Server间的消息分区,及分布式消原创 2016-11-02 15:59:54 · 1086 阅读 · 0 评论 -
zookeeper学习笔记(1)——简介
设计目标数据模型命名空间状态更新和监听一致性保证操作原语集参考文献ZooKeeper是一个分布式应用程序协调服务,通过暴露一个简单的操作原语集,为分布式应用程序提供数据同步服务。1. 设计目标最终一致性:client不论连接到哪个Server,展示给它都是同一个视图,这是zookeeper最重要的性能。可靠性:具有简单、健壮、良好的性能,如果消息m被到一台服务器接受,那么它将被所有的原创 2016-10-26 17:47:21 · 523 阅读 · 0 评论 -
Elasticsearch学习笔记(1)——Lucene简介
Elasticsearch是一款优秀的全文索引产品。Elasticsearch基于Lucene构建索引和进行查询,理解Lucene的相关知识有助于更深入的学习和使用Elasticsearch。1. Lucene简介Lucene是一款成熟的、高性能的、可扩展的、轻量级的、功能强大的全文索引框架。关键概念其关键概念包括:Document:数据源,由Field组成。Field:Document的组成部原创 2016-10-26 17:39:54 · 814 阅读 · 0 评论 -
windows环境下跑通spark streaming wordcount,先了解windows下的nc用法
spark streaming官方教程有个NetworkWordCount例子,通过 TCP 套接字连接,从流数据中创建了一个 DStream,然后进行处理,时间窗口大小为10s 。 其中需要使用netcat作为数据数据服务器,window下执行:nc -lk 9999结果报“’nc’ 不是内部或外部命令,也不是可运行的程序或批处理文件。” 哦,没有安装netcat,于是下载ne...原创 2018-05-21 15:10:58 · 4962 阅读 · 2 评论