自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Cassandra与NoSql以及其生态圈

与关系型数据库的世界相比,NOSQL包含了更加多样化的技术,并且t具有适合特定的用例的特定NoSql产品。 为了克服RDBMS在技术方面的限制,NoSql是为了给更多特定用例而设计的数据库技术,限制的技术如下: 数据大小 事务管理 可靠性和可管理性 灵活性和数据架构 硬件成本 Cassandra更好的适用于以下场景: 需要弹性扩展的数据库 ...

2019-10-11 15:56:09 148

原创 什么是Cassandra

什么是Cassandra Ben Slater是instaclustr最新的首席产品官,他负责指导我们的开发路线图 监督产品的设计并且管理我们的产品支持团队 Ben在系统开发方面已经有超过20年的经验,包括之前在软件开发公司的经历, 最近10年,为Accenture(全球领先的系统集成商)运营过大的团队, 他在管理开发团队和工程实践方面有着丰富的经验 我是第一个承认在Cassabdra和NOSQL...

2019-10-11 14:31:01 367

原创 Storm

一、Storm概述 Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。 Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。 Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。 Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开...

2019-08-23 00:16:30 211

原创 Flume

conf文件下 vim **.conf a1.sources = r1 a1.channels= c1 a1.sinks = s1 #监控此目录的变化 a1.sources.r1.type = spooldir a1.sources.r1.spoolDir = /data/zebradata #增加拦截器 处理读取的数据 a1.sources.r1.interceptors = i1 #增加事件戳...

2019-08-23 00:15:31 110

原创 Storm

Storm 概念 分布式实时计算系统 结构(topology 拓扑) spout(产生数据流) 1.连接数据源 将数据源转换为一个个tuple 2.发射tuple stream(数据流) 核心数据结构 tuple(元组) 包含一个或多个键值对的列表 bolt(运算数据流) 1.接收spout或其他bolt的一个或多个数据流 2.运算后发送给其他bolt或存入数据库...

2019-08-23 00:11:26 80

原创 Kafka

Kafka 概念 1.分布式的 消息队列 2.可分区 可复制 3.具有类似于JMS的特性 JMS是java提供的消息队列的规范 4.依赖zookeeper协调集群信息 5.topic、broker、producer、consumer 优点 1.高吞吐量 2.持久化数据存储 不用内存缓存数据 直接写入磁盘 1.平时磁盘读写慢 是因为读的小文件多 寻址时间长...

2019-08-23 00:10:14 79

原创 Hbase

一、HBASE概述 (1)概述 基于hadoop的数据库工具 来源于google的一片论文BigTable 后来由Apache做了开源实现 就是HBase 是一种 NoSQL 非关系型的数据库 不符合关系型数据库的范式 适合存储 半结构化 非结构化 的数据 适合存储 稀疏的数据 空的数据不占用空间 面向列(族)进行存储 提供实时增删改查的能力 是一种真正的数据库 可以存储海量数据 性能也很强大 可...

2019-08-23 00:08:41 71

原创 Hive

一、HIVE是什么 开发调试麻烦 只能用java开发 需要对hadoop的底层及api比较了解才能开发复杂代码 HQL Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduc...

2019-08-23 00:07:41 104

原创 Zookeeper

概念 分布式应用程序的协调服务框架 为什么要用 分布式程序存在死锁 活锁问题 死锁 1.线程A和线程B阻塞 2.线程A等待B的锁释放,线程B等待A的锁释放 活锁 多个线程争夺同一资源,但是没有一个能拿到 比较 死锁不占用CPU资源,活锁要不停地调度线程,耗费CPU资源 选取集群Leader 过半选举 先比较事务id,若相同比较myid 定时Leader...

2019-08-23 00:04:53 63

原创 Hadoop

Hadoop HDFS 组成 Block 默认128M 若切分数据小于block大小 不必占用block所有空间(eg. 数据大小60M 不会将128M都占用 只会用60M) 便于数据切分 管理 复制 放置策略 若上传文件的服务器本身就是datanode 优先存储在本机上 若不是 随机找一台磁盘不满 cpu不忙的节点 放置b1 在其他机架放置b2(防止停电导致全部失效) ...

2019-08-23 00:00:54 67

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除