自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Cassandra与NoSql以及其生态圈

与关系型数据库的世界相比,NOSQL包含了更加多样化的技术,并且t具有适合特定的用例的特定NoSql产品。 为了克服RDBMS在技术方面的限制,NoSql是为了给更多特定用例而设计的数据库技术,限制的技术如下:数据大小 事务管理 可靠性和可管理性 灵活性和数据架构 硬件成本 Cassandra更好的适用于以下场景: 需要弹性扩展的数据库...

2019-10-11 15:56:09 153

原创 什么是Cassandra

什么是CassandraBen Slater是instaclustr最新的首席产品官,他负责指导我们的开发路线图监督产品的设计并且管理我们的产品支持团队Ben在系统开发方面已经有超过20年的经验,包括之前在软件开发公司的经历,最近10年,为Accenture(全球领先的系统集成商)运营过大的团队,他在管理开发团队和工程实践方面有着丰富的经验我是第一个承认在Cassabdra和NOSQL...

2019-10-11 14:31:01 373

原创 Storm

一、Storm概述Storm是一个开源的分布式实时计算系统,可以简单、可靠的处理大量的数据流。Storm有很多使用场景:如实时分析,在线机器学习,持续计算,分布式RPC,ETL等等。Storm支持水平扩展,具有高容错性,保证每个消息都会得到处理,而且处理速度很快(在一个小集群中,每个结点每秒可以处理数以百万计的消息)。Storm的部署和运维都很便捷,而且更为重要的是可以使用任意编程语言来开...

2019-08-23 00:16:30 229

原创 Flume

conf文件下vim **.confa1.sources = r1a1.channels= c1a1.sinks = s1#监控此目录的变化a1.sources.r1.type = spooldira1.sources.r1.spoolDir = /data/zebradata#增加拦截器 处理读取的数据a1.sources.r1.interceptors = i1#增加事件戳...

2019-08-23 00:15:31 112

原创 Storm

Storm概念分布式实时计算系统结构(topology 拓扑)spout(产生数据流)1.连接数据源 将数据源转换为一个个tuple2.发射tuplestream(数据流)核心数据结构 tuple(元组)包含一个或多个键值对的列表bolt(运算数据流)1.接收spout或其他bolt的一个或多个数据流2.运算后发送给其他bolt或存入数据库...

2019-08-23 00:11:26 80

原创 Kafka

Kafka概念1.分布式的 消息队列2.可分区 可复制3.具有类似于JMS的特性JMS是java提供的消息队列的规范4.依赖zookeeper协调集群信息5.topic、broker、producer、consumer优点1.高吞吐量2.持久化数据存储不用内存缓存数据 直接写入磁盘1.平时磁盘读写慢 是因为读的小文件多 寻址时间长...

2019-08-23 00:10:14 80

原创 Hbase

一、HBASE概述(1)概述基于hadoop的数据库工具来源于google的一片论文BigTable 后来由Apache做了开源实现 就是HBase是一种 NoSQL 非关系型的数据库 不符合关系型数据库的范式适合存储 半结构化 非结构化 的数据适合存储 稀疏的数据 空的数据不占用空间面向列(族)进行存储提供实时增删改查的能力 是一种真正的数据库可以存储海量数据 性能也很强大 可...

2019-08-23 00:08:41 75

原创 Hive

一、HIVE是什么开发调试麻烦只能用java开发需要对hadoop的底层及api比较了解才能开发复杂代码HQLHive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduc...

2019-08-23 00:07:41 104

原创 Zookeeper

概念分布式应用程序的协调服务框架为什么要用分布式程序存在死锁 活锁问题死锁1.线程A和线程B阻塞2.线程A等待B的锁释放,线程B等待A的锁释放活锁多个线程争夺同一资源,但是没有一个能拿到比较死锁不占用CPU资源,活锁要不停地调度线程,耗费CPU资源选取集群Leader过半选举先比较事务id,若相同比较myid定时Leader...

2019-08-23 00:04:53 63

原创 Hadoop

HadoopHDFS组成Block默认128M若切分数据小于block大小 不必占用block所有空间(eg. 数据大小60M 不会将128M都占用 只会用60M)便于数据切分 管理 复制放置策略若上传文件的服务器本身就是datanode 优先存储在本机上若不是 随机找一台磁盘不满 cpu不忙的节点 放置b1在其他机架放置b2(防止停电导致全部失效)...

2019-08-23 00:00:54 67

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除