- 博客(10)
- 收藏
- 关注
原创 Cassandra与NoSql以及其生态圈
与关系型数据库的世界相比,NOSQL包含了更加多样化的技术,并且t具有适合特定的用例的特定NoSql产品。 为了克服RDBMS在技术方面的限制,NoSql是为了给更多特定用例而设计的数据库技术,限制的技术如下: 数据大小 事务管理 可靠性和可管理性 灵活性和数据架构 硬件成本 Cassandra更好的适用于以下场景: 需要弹性扩展的数据库 ...
2019-10-11 15:56:09
148
原创 什么是Cassandra
什么是Cassandra Ben Slater是instaclustr最新的首席产品官,他负责指导我们的开发路线图 监督产品的设计并且管理我们的产品支持团队 Ben在系统开发方面已经有超过20年的经验,包括之前在软件开发公司的经历, 最近10年,为Accenture(全球领先的系统集成商)运营过大的团队, 他在管理开发团队和工程实践方面有着丰富的经验 我是第一个承认在Cassabdra和NOSQL...
2019-10-11 14:31:01
367
原创 Storm
一、Storm概述 Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。 Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。 Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。 Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开...
2019-08-23 00:16:30
211
原创 Flume
conf文件下 vim **.conf a1.sources = r1 a1.channels= c1 a1.sinks = s1 #监控此目录的变化 a1.sources.r1.type = spooldir a1.sources.r1.spoolDir = /data/zebradata #增加拦截器 处理读取的数据 a1.sources.r1.interceptors = i1 #增加事件戳...
2019-08-23 00:15:31
110
原创 Storm
Storm 概念 分布式实时计算系统 结构(topology 拓扑) spout(产生数据流) 1.连接数据源 将数据源转换为一个个tuple 2.发射tuple stream(数据流) 核心数据结构 tuple(元组) 包含一个或多个键值对的列表 bolt(运算数据流) 1.接收spout或其他bolt的一个或多个数据流 2.运算后发送给其他bolt或存入数据库...
2019-08-23 00:11:26
80
原创 Kafka
Kafka 概念 1.分布式的 消息队列 2.可分区 可复制 3.具有类似于JMS的特性 JMS是java提供的消息队列的规范 4.依赖zookeeper协调集群信息 5.topic、broker、producer、consumer 优点 1.高吞吐量 2.持久化数据存储 不用内存缓存数据 直接写入磁盘 1.平时磁盘读写慢 是因为读的小文件多 寻址时间长...
2019-08-23 00:10:14
79
原创 Hbase
一、HBASE概述 (1)概述 基于hadoop的数据库工具 来源于google的一片论文BigTable 后来由Apache做了开源实现 就是HBase 是一种 NoSQL 非关系型的数据库 不符合关系型数据库的范式 适合存储 半结构化 非结构化 的数据 适合存储 稀疏的数据 空的数据不占用空间 面向列(族)进行存储 提供实时增删改查的能力 是一种真正的数据库 可以存储海量数据 性能也很强大 可...
2019-08-23 00:08:41
71
原创 Hive
一、HIVE是什么 开发调试麻烦 只能用java开发 需要对hadoop的底层及api比较了解才能开发复杂代码 HQL Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduc...
2019-08-23 00:07:41
104
原创 Zookeeper
概念 分布式应用程序的协调服务框架 为什么要用 分布式程序存在死锁 活锁问题 死锁 1.线程A和线程B阻塞 2.线程A等待B的锁释放,线程B等待A的锁释放 活锁 多个线程争夺同一资源,但是没有一个能拿到 比较 死锁不占用CPU资源,活锁要不停地调度线程,耗费CPU资源 选取集群Leader 过半选举 先比较事务id,若相同比较myid 定时Leader...
2019-08-23 00:04:53
63
原创 Hadoop
Hadoop HDFS 组成 Block 默认128M 若切分数据小于block大小 不必占用block所有空间(eg. 数据大小60M 不会将128M都占用 只会用60M) 便于数据切分 管理 复制 放置策略 若上传文件的服务器本身就是datanode 优先存储在本机上 若不是 随机找一台磁盘不满 cpu不忙的节点 放置b1 在其他机架放置b2(防止停电导致全部失效) ...
2019-08-23 00:00:54
67
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人