- 博客(9)
- 收藏
- 关注
原创 Spark搭建和使用
Spark搭建和使用Spark-day011.Spark初始1.什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等
2020-08-03 10:50:29 518
原创 kafka搭建使用
kafka一、Kafka简介Kafka是一个分布式的消息队列系统(Message Queue)。官网:https://kafka.apache.org/kafka集群有多个Broker服务器组成,每个类型的消息被定义为topic。同一topic内部的消息按照一定的key和算法被分区(partition)存储在不同的Broker上。消息生产者producer和消费者consumer可以在多个Broker上生产/消费topic概念理解:Topics and Logs:Topic即为每条发布
2020-07-31 10:58:41 214
原创 Storm搭建和笔记 flume
StormStorm 简介相当于右边的电梯,实时处理数据,不是一批一批的处理数据Storm特征Storm是个实时的、分布式以及具备高容错的计算系统Storm进程常驻内存Storm数据不经过磁盘,在内存中处理Twitter开源的分布式实时大数据处理框架,最早开源于github2013年,Storm进入Apache社区进行孵化2014年9月,晋级成为了Apache顶级项目官网 http://storm.apache.org/国内外各大网站使用,例如雅虎、阿里、百度架构Nim
2020-07-31 10:37:42 356
原创 zookeeper搭建 使用
zookeeper安装和配置zookeeper简述解决单点故障毫秒级处理解决分布协调的问题Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式 协调 服务 service包含一个简单的原语集,分布式应用程序可以基于它实现:开源领域 首屈一指角色模型集群状态(可用/不可用)主从分工攘其外:统一视图会话session数据模型Znode目录结构节点类型事件监听Watcher原理:原子消息广播协议ZABpaxosjo
2020-07-28 20:35:01 133
原创 hbase搭建和笔记
hbase搭建和笔记HBase 简介非关系型数据库知识面扩展Cassandra hbase mongodb Couchdb,文件存储数据库Neo4j非关系型图数据库HbaseHadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)
2020-07-28 16:58:32 184 1
原创 hive搭建和笔记
hive搭建hive三种方式区别和搭建Hive中metastore(元数据存储)的三种方式:a)内嵌Derby方式b)Local方式c)Remote方式1.本地模式(derby)这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可hive-site.xml配置<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
2020-07-28 16:11:54 305
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人