qq_31827693-CSDN博客

原创 Cassandra与NoSql以及其生态圈

与关系型数据库的世界相比，NOSQL包含了更加多样化的技术，并且t具有适合特定的用例的特定NoSql产品。为了克服RDBMS在技术方面的限制，NoSql是为了给更多特定用例而设计的数据库技术，限制的技术如下：数据大小事务管理可靠性和可管理性灵活性和数据架构硬件成本 Cassandra更好的适用于以下场景：需要弹性扩展的数据库...

2019-10-11 15:56:09 158

原创什么是Cassandra

什么是CassandraBen Slater是instaclustr最新的首席产品官，他负责指导我们的开发路线图监督产品的设计并且管理我们的产品支持团队Ben在系统开发方面已经有超过20年的经验，包括之前在软件开发公司的经历，最近10年，为Accenture（全球领先的系统集成商）运营过大的团队，他在管理开发团队和工程实践方面有着丰富的经验我是第一个承认在Cassabdra和NOSQL...

2019-10-11 14:31:01 375

原创 Storm

一、Storm概述Storm是一个开源的分布式实时计算系统，可以简单、可靠的处理大量的数据流。Storm有很多使用场景：如实时分析，在线机器学习，持续计算，分布式RPC，ETL等等。Storm支持水平扩展，具有高容错性，保证每个消息都会得到处理，而且处理速度很快(在一个小集群中，每个结点每秒可以处理数以百万计的消息)。Storm的部署和运维都很便捷，而且更为重要的是可以使用任意编程语言来开...

2019-08-23 00:16:30 234

原创 Flume

conf文件下vim **.confa1.sources = r1a1.channels= c1a1.sinks = s1#监控此目录的变化a1.sources.r1.type = spooldira1.sources.r1.spoolDir = /data/zebradata#增加拦截器处理读取的数据a1.sources.r1.interceptors = i1#增加事件戳...

2019-08-23 00:15:31 117

原创 Storm

Storm概念分布式实时计算系统结构(topology 拓扑)spout（产生数据流）1.连接数据源将数据源转换为一个个tuple2.发射tuplestream（数据流）核心数据结构 tuple（元组）包含一个或多个键值对的列表bolt（运算数据流）1.接收spout或其他bolt的一个或多个数据流2.运算后发送给其他bolt或存入数据库...

2019-08-23 00:11:26 83

原创 Kafka

Kafka概念1.分布式的消息队列2.可分区可复制3.具有类似于JMS的特性JMS是java提供的消息队列的规范4.依赖zookeeper协调集群信息5.topic、broker、producer、consumer优点1.高吞吐量2.持久化数据存储不用内存缓存数据直接写入磁盘1.平时磁盘读写慢是因为读的小文件多寻址时间长...

2019-08-23 00:10:14 83

原创 Hbase

一、HBASE概述(1)概述基于hadoop的数据库工具来源于google的一片论文BigTable 后来由Apache做了开源实现就是HBase是一种 NoSQL 非关系型的数据库不符合关系型数据库的范式适合存储半结构化非结构化的数据适合存储稀疏的数据空的数据不占用空间面向列(族)进行存储提供实时增删改查的能力是一种真正的数据库可以存储海量数据性能也很强大可...

2019-08-23 00:08:41 79

原创 Hive

一、HIVE是什么开发调试麻烦只能用java开发需要对hadoop的底层及api比较了解才能开发复杂代码HQLHive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduc...

2019-08-23 00:07:41 108

原创 Zookeeper

概念分布式应用程序的协调服务框架为什么要用分布式程序存在死锁活锁问题死锁1.线程A和线程B阻塞2.线程A等待B的锁释放，线程B等待A的锁释放活锁多个线程争夺同一资源，但是没有一个能拿到比较死锁不占用CPU资源，活锁要不停地调度线程，耗费CPU资源选取集群Leader过半选举先比较事务id，若相同比较myid定时Leader...

2019-08-23 00:04:53 67

原创 Hadoop

HadoopHDFS组成Block默认128M若切分数据小于block大小不必占用block所有空间(eg. 数据大小60M 不会将128M都占用只会用60M)便于数据切分管理复制放置策略若上传文件的服务器本身就是datanode 优先存储在本机上若不是随机找一台磁盘不满 cpu不忙的节点放置b1在其他机架放置b2(防止停电导致全部失效)...

2019-08-23 00:00:54 71

qq_31827693的博客

原创 Cassandra与NoSql以及其生态圈

原创什么是Cassandra

原创 Storm

原创 Flume

原创 Storm

原创 Kafka

原创 Hbase

原创 Hive

原创 Zookeeper

原创 Hadoop

空空如也

空空如也