介绍一些平时用得到的服务/组件

介绍一些平时用得到的服务/组件

组件名属性标签特性使用场景
Mysql关系型数据库,行式存储,支持sql轻量级数据分析,存储hive的元数据,kettle的资源库,web 应用后台库
Oracle关系型数据库,行式存储,支持sql中量级数据分析,存储 。可分布式BI(商业智能)
ES分布式全文搜索引擎ES自动可以将海量数据分散到多台服务器上去存储和检索,支持海量数据进行近实时的全文检索(like “%ABC%”)和结构化检索(= “ABC” )站内搜索(电商,招聘,门户等),IT系统(OA,CRM,ERP);维基百科,GitHub
redis高性能的key-value数据库读写性能极高,丰富的数据类型结合storm的实时查询分析,java高并发秒杀
memcache基于内存分布式的高速缓存系统,对于一些大型的、需要频繁访问数据库的网站访问速度提升效果十分显著。单点登录页面跳转的时候,解决重复性登录的问题。
Kafka高吞吐量、低延迟:kafka每秒可以处理几十万条消息;
可扩展性:kafka集群支持热扩展;
持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失;
容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败);
高并发:支持数千个客户端同时读写
一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统;
它的最大的特性就是可以实时的处理大量数据以满足各种需求场景;
比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等;
用scala语言编写
日志收集:可以用Kafka可以收集各种服务的log;
消息系统:解耦和生产者和消费者、缓存消息等;
用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等;
运营指标:Kafka也经常用来记录运营监控数据;
流式处理:比如spark streaming和storm
ETL工具
KettleETL工具本地开发,通过资源库同步在服务器执行常用ETL工具之一
SqoopETL工具常规etl工具,可集群部署mysql与hadoop数据迁移等
调度工具
azkaban调度工具处理有依赖关系的复杂任务调度,只支持mysql存储基本信息常用调度工具之一
crontablinux自带调度工具简单任务调度适用日常少量调度
  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小白的成功进阶之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值