lucas朱-CSDN博客

原创 HDFS一个文件出现多个小文件的问题

在采集数据的时候一个文件上传到HDFS的文件发现都是小文件原因是hadoop的组件NamaNode出现问题导致出现小文件得到错误解决方法: 1. 将服务器上的Hadoop根目录中 data/ logs 两个文件删除 rm -rf data/ logs/ 2. 将NameNode初始化/格式化注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集...

2021-11-15 13:49:53 2262

原创 kafka 所遇到的问题梳理

最近使用kafka总是出错一些概念性的问题梳理不清楚,朋友也总会问到这一类的问题顾总结如下说的可能不对阅读者挑取有用信息 kafka 一.基础介绍 1.kafka是什么基于传统的是 :缓冲的消息队列 1)分布式 : 类似于HDFS分布式 2)kafka和Channel的区别? 缓冲量大小,及后面对接组件.Kafka对接计算引擎或者存储等框架; Channel对接的是Sink ...

2021-11-12 19:29:28 2388

原创 kafka在生产环境中出现的数据丢失问题大汇总

Kafka数据丢失汇总在大数据的领域中，数据显得尤其的重要。在每一个组件、每一个步骤中，我们都要对数据进行妥善的处理、保护，才能得到更有说服力、有意义的数据。所以数据丢失，就成为了一件非常严重的事情；所以在我们的生产环境中，防止数据丢失就显得尤其重要。第1章引言 Kafka作为我们消息队列的中间件，基于订阅和发布的消息队列；解除生产者（消息源）和消费者（数据接收处）的耦合关系，消除某时段数据传输速度高峰值，启动一个缓冲的作用。 Kafka以时间复杂度O(1)的方式提供消息持久化能力，即使应

2021-11-12 19:27:22 2141

原创 Hadoop序列化

1.序列化简介 (1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他的据传输协议)方便存储(持久化的)到磁盘中和网络传输反序列化就是将收到的字节序列转换成内存中的对象 (2)为什么要序列化在工作当中,"正在运行"的对象只能在内存里,断电关机后就不会继续运行或者存在,而且只能在本地的进程中使用们不能被发送到网络上的另一台计算机上.而序列化可以存储"正在运行"对象,并且可以发送到...

2021-10-17 13:28:14 156

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人