- 博客(4)
- 收藏
- 关注
原创 HDFS一个文件出现多个小文件的问题
在采集数据的时候一个文件上传到HDFS的文件发现都是小文件 原因是hadoop的组件NamaNode出现问题 导致出现小文件得到错误 解决方法: 1. 将服务器上的Hadoop根目录中 data/ logs 两个文件删除 rm -rf data/ logs/ 2. 将NameNode初始化/格式化 注意:格式化NameNode,会产生新的集群id,导致NameNode和DataNode的集群id不一致, 集群找不到已往数据。如果集...
2021-11-15 13:49:53 2262
原创 kafka 所遇到的问题梳理
最近使用kafka总是出错 一些概念性的问题梳理不清楚,朋友也总会问到这一类的问题 顾总结如下 说的可能不对 阅读者挑取有用信息 kafka 一.基础介绍 1.kafka是什么 基于传统的是 :缓冲的消息队列 1)分布式 : 类似于HDFS分布式 2)kafka和Channel的区别? 缓冲量大小,及后面对接组件.Kafka对接计算引擎或者存储等框架; Channel对接 的是Sink ...
2021-11-12 19:29:28 2388
原创 kafka在生产环境中出现的数据丢失问题大汇总
Kafka数据丢失汇总 在大数据的领域中,数据显得尤其的重要。在每一个组件、每一个步骤中,我们都要对数据进行妥善的处理、保护,才能得到更有说服力、有意义的数据。 所以数据丢失,就成为了一件非常严重的事情;所以在我们的生产环境中,防止数据丢失就显得尤其重要。 第1章 引言 Kafka作为我们消息队列的中间件,基于订阅和发布的消息队列;解除生产者(消息源)和消费者(数据接收处)的耦合关系,消除某时段数据传输速度高峰值,启动一个缓冲的作用。 Kafka以时间复杂度O(1)的方式提供消息持久化能力,即使应
2021-11-12 19:27:22 2141
原创 Hadoop序列化
1.序列化简介 (1)什么是序列化 序列化就是把内存中的对象,转换成字节序列(或其他的据传输协议)方便存储(持久化的)到磁盘中和网络传输 反序列化就是将收到的字节序列转换成内存中的对象 (2)为什么要序列化 在工作当中,"正在运行"的对象只能在内存里,断电关机后就不会继续运行或者存在,而且只能在本地的进程中使用们不能被发送到网络上的另一台计算机上.而序列化可以存储"正在运行"对象,并且可以发送到...
2021-10-17 13:28:14 156
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人