自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 大数据技术之Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统(消息引擎系统),它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。

2023-11-11 08:35:03 83 1

原创 MapReduce计算框架

离线:数据的失效性没有那么强,但是想对也能很快得到结果。258M数据被切分成块放在HDFS上,每个块有128MB大小。原始数据->map(Key,value)->Reduce。可以循环利用这块内存区域,减少数据溢写时Map的停止时间。将大数据切分成多个小数据,交给更多的节点参与计算。将内存中的数据循环写到硬盘,不用担心。产生的数据较多,可能会溢写多个文件。将计算传递给有效的节点进行 工作。

2023-09-09 15:43:03 112 1

原创 Zookeeper 3.4.5

一些分布式系统通过复制数据来提高系统的可靠性和容错性,并且将数据的不同的副本存放在不同的机器在数据有多分副本的情况下,如果网络、服务器或者软件出现故障,会导致部分副本写入成功,部分副本写入失败。这就造成各个副本之间的数据不一致,数据内容冲突。

2023-09-07 21:05:31 114 1

原创 大数据分布式文件系统——HDFS

4:HDFS的基本存储单位:块,块是最小的数据读写单位,默认存储块大小为128M。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。HDFS中的文件在物理上是分块存储(Block),块的大小可以通过配置参数 ( dfs.blocksize)来规定,默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M。4:高容错:自动保存多个副本(默认3个,可自行修改),并且能够将失败的任务重新分配,解决故障,成本低。2:DataNode:就是Slave。

2023-09-07 16:15:49 576

原创 Flume

因为一般web应用分布在很多个服务器中,产生的日志,处理起来非常麻烦,用flume组和方式可以很好的解决这一问题,每台服务器上都部署一个flume,将每台服务器收集到的日志传递到同一个flume,最后由这个存储全部日志数据的flume上传到hdfs,hive,hbase。1:复制和多路复用(使用flume1监控文件变动,flume1将变动的内容传递给flume2flume负责存储到hdfs,同时flume1将变动内容发送给flume3,flume3负责输出到 local filesystem)

2023-09-06 21:20:40 99

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除