kafka+flume+kafka中问题.pdf
flume从kafka读取数据,然后再sink到kafka中,
这种场景下会出现问题。
(1)现象表示为:
flume从kafka读取数据,sink的sinkTopic中没有数据,也无法从sinkTopic中读取数据;
(2)原因分析:
如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体
表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,数据仍然
会被写入到Source中指定的Topic中。
aws-general.pdf
AWS 一般参考
这是 Amazon Web Services 一般参考。
内容
• AWS 区域和终端节点 (p. 2)
• AWS 安全凭证 (p. 160)
• Amazon 资源名称 (ARN) 和 AWS 服务命名空间 (p. 174)
• 签署 AWS API 请求 (p. 212)
• AWS 服务限制 (p. 248)
• AWS 的 IP 地址范围 (p. 332)
• AWS 中的错误重试和指数退避 (p. 340)
• AWS 开发工具包对 Amazon S3 客户端加密的支持 (p. 342)
• 需要 AWS 账户根用户凭
Spark基本原理与设计思想
Spark是一个通用的并行计算框架,由加州伯克利大学(UC Berkeley) 的AMP实验室开发于2009年,并于2010年开源,2013年成长为Apache旗下在大数据领域最活跃的开源项目之一。
虽然Spark是一个通用的并行计算框架,但是Spark本质上也是一个基于map-reduce算法模型实现的分布式计算框架,Spark不仅拥有了Hadoop MapReduce的能力和优点,还解决了Hadoop MapReduce中的诸多性能缺陷。
下一代消息中间件--pulsar
Apache Pulsar是一个企业级的分布式消息系统,最初由Yahoo开发并在2016年开源,目前正在Apache基金会下孵化。Plusar已经在Yahoo的生产环境使用了三年多,主要服务于Mail、Finance、Sports、 Flickr、 the Gemini Ads platform、 Sherpa以及Yahoo的KV存储。