万吐司睿-CSDN博客

原创大数据技术之Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统（消息引擎系统），它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

2023-11-11 08:35:03 83 1

原创 MapReduce计算框架

离线：数据的失效性没有那么强，但是想对也能很快得到结果。258M数据被切分成块放在HDFS上，每个块有128MB大小。原始数据->map（Key，value）->Reduce。可以循环利用这块内存区域，减少数据溢写时Map的停止时间。将大数据切分成多个小数据，交给更多的节点参与计算。将内存中的数据循环写到硬盘，不用担心。产生的数据较多，可能会溢写多个文件。将计算传递给有效的节点进行工作。

2023-09-09 15:43:03 112 1

原创 Zookeeper 3.4.5

一些分布式系统通过复制数据来提高系统的可靠性和容错性，并且将数据的不同的副本存放在不同的机器在数据有多分副本的情况下，如果网络、服务器或者软件出现故障，会导致部分副本写入成功，部分副本写入失败。这就造成各个副本之间的数据不一致，数据内容冲突。

2023-09-07 21:05:31 114 1

原创大数据分布式文件系统——HDFS

4：HDFS的基本存储单位：块，块是最小的数据读写单位，默认存储块大小为128M。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数 ( dfs.blocksize）来规定，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M。4：高容错：自动保存多个副本（默认3个，可自行修改），并且能够将失败的任务重新分配，解决故障，成本低。2：DataNode：就是Slave。

2023-09-07 16:15:49 576

原创 Flume

因为一般web应用分布在很多个服务器中，产生的日志，处理起来非常麻烦，用flume组和方式可以很好的解决这一问题，每台服务器上都部署一个flume，将每台服务器收集到的日志传递到同一个flume，最后由这个存储全部日志数据的flume上传到hdfs，hive，hbase。1：复制和多路复用（使用flume1监控文件变动，flume1将变动的内容传递给flume2flume负责存储到hdfs，同时flume1将变动内容发送给flume3，flume3负责输出到 local filesystem）

2023-09-06 21:20:40 99

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大数据技术之Kafka

原创 MapReduce计算框架

原创 Zookeeper 3.4.5

原创 大数据分布式文件系统——HDFS

原创 Flume

空空如也

空空如也

原创大数据技术之Kafka

原创大数据分布式文件系统——HDFS