![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 79
梦㐅触及轮回
这个作者很懒,什么都没留下…
展开
-
Flume学习笔记
功能 分布式的实时文件、网络端口数据流采集,可以将各种不同数据源的数据实时采集到各种目的地 特点 实时采集 实时监听数据源,一有数据产生就采集 功能全面 大数据常用数据源和目标地都封装好了对应的接口 允许自定义开发 Java开发的源码,提供了自定义开发的接口 开发相对简单 开发一个配置文件,写入配置即可 可以实现分布式采集 本身不是分布式工具,可以实现分布式采集 架构 Agent:一个flume程序就是一个Agent Event:flume采集的数据封装为Event对象进行传输...原创 2022-02-12 10:38:46 · 571 阅读 · 0 评论 -
HBase学习笔记
概念:基于内存和磁盘的分布式大数据NoSQL数据库用途定位: 常用于大数据离线或实时存储,提供高效读写服务数据存储方式 namespace ns类似于MySQL中的数据库 table t表 rowkey row行的唯一标识,类似于主键,但比主键功能强大,唯一索引列,需要合理设计 columnfamily cf列族 查询优化手段 column c列名 ts 时间戳 value 值常用命令行命令 create_namespace 'namespace_name' 建库 create 'NS_...原创 2022-01-22 22:26:33 · 1827 阅读 · 0 评论 -
Kafka学习笔记
软件介绍:kafka是领英公司基于Scala语言开发的一款消息中间件,后捐献给了Apache基金会 功能:分布式流数据实时存储,实时的消息队列工具,分布式流式计算(很少用) 定义:分布式的基于订阅发布模式的高吞吐高并发高性能的实时消息队列系统 高效率读写 基于内存存储数据保证 数据安全 副本机制和 分布式内存存储 类似于hdfs的分块和副本机制,不过数据是保存在内存中。kafka数据重启服务不会丢失,因为kafka使用的是操作系统级别的内存。 容错性:数据最终保存与分...原创 2022-01-22 21:48:50 · 1712 阅读 · 0 评论 -
Redis学习笔记
1.概念:基于内存的分布式非关系型数据库,常用于高并发高吞吐的数据库或者作为查询关系型数据库的中间过滤层。 2.数据结构:整体key-value键值对方式;键都为String类型,value可以为String、Hash(key-value)、set、list、zst、HyperLogLog等。 3.常用命令: value类型 命令 String: set、get、strlen Hash:hmset、hmget、hgetall、hvals、hdel ...原创 2022-01-18 20:31:55 · 721 阅读 · 2 评论