![](https://img-blog.csdnimg.cn/dc5441198223413ea8efd9ba4c4205cc.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据BigData
文章平均质量分 94
老吴带你入门大数据
海量数据,数据就是价值。
吴琼老师
不啻微茫,造焗成阳。
展开
-
第七节 Redis
因为redis安装需要 依赖c语言环境,所以需要gcc进行编译。然后上传 到Linux目录下 ,并解压该tar包。进入 执行默认有gcc的话,在该目录下执行。 会产生相应的库文件。make之后 ,在使用 即确认安装。将可以执行文件放到相应目录。注意: 默认会安装在 ,也可以自己指定目录中间加路径即可。1 . 启动 redis 服务端- 服务器端启动 执行 。2. 客户端启动: 然后再启动一个连接, 目录下执行 客户端启动。注意,有时候set 中文时会有乱码,中文乱码问题 就需要启原创 2022-10-13 12:56:57 · 568 阅读 · 0 评论 -
第六节 Zookeeper 分布式应用程序协调服务
``java运用场景来体现。通过下面的三个特点就是说明了 zk的概述其实zk就主要功能就两个 下面一个存一个读,一个就是监听。一, 管理(**存储,读取**) 用户提交的数据。二, ==为用户程序提供节点监听服务==``````java一,环境描述前提:1 一个分布式系统里面有很多节点 , 但必须有一个节点是master 其他是slave,保证系统的正常工作.原创 2022-10-08 19:14:07 · 699 阅读 · 0 评论 -
第五节 Hadoop 2.0 高可用集群搭建(最详细版本)
Hadoop Ha 高可用集群搭建最详细版本包括各种组件的配置。以及操作步骤原创 2022-09-30 14:01:17 · 1220 阅读 · 0 评论 -
第四节 MapReduce(二)
Mapper先输出键值对,然后再Reduce中合并处理结果。如果有10亿行数据,Mapper会生成10亿个键值对在网络上输出,这样会增加网络压力。我们可不可以在Mapper端进行合并,只输出最大值即可。这样提高了网络效率,也提高了程序效率。Combine可以理解为,在Mapper端的Reduce操作,先进行合并在输出给Reduce。前提是不能改变最终输出结果,也不是所有场景都适合体现合并,比如,计算平均值?。提前合并求平均值了。```javaMapper Reduce 平均值。原创 2022-09-27 13:47:24 · 648 阅读 · 0 评论 -
第三节 MapReduce(一)
从上图来看,基本上属于MapReduce转变的前身设计思路,从MapReduce命名上来看有两部分组成,Map意思映射,Reduce为规约。可以按照下面的方式理解Map和Reduce。输入(input)一个大文件,通过切片(split)之后,将数据分成多个切片。每个文件切片由单独的节点进行处理,这就是Map方法。将各个节点计算的结果进行汇总,并得到最终结果,这就是Reduce方法。任务job = Map+Reduce,Map输出,就是Reduce的输入。原创 2022-09-18 11:33:34 · 1336 阅读 · 0 评论 -
第二节 HDFS
一,hdfs 解决了大文件数据存储问题。并且hdfs 这样做有什么好处!?```java1. 一个明显的好处是,一个文件的大小可以大于网络中任意一个磁盘的容量,文件的所有块并不需要存储在同一个磁盘上,因此它们可以利用集群上的任意一个磁盘进行存储。2. 另一个很重要的好处是,块很适合进行数据备份,从而提高了数据的容错能力和可用性。HDFS默认会将块复制3个(默认值,可配置)单独的物理服务器上面进行容错。原创 2022-09-10 21:04:07 · 1017 阅读 · 0 评论 -
第一节 Hadoop
这个好理解,就是上面说得处理海量数据,大数据技术中的其中一种,且 Hadoop 包含一些核心组件。HDFS — 分布式文件系统,解决海量数据的分布式 存储问题;MapReduce — 分布式计算系统。 解决海量数据的分布式计算问题。Yarn — 分布式资源调度平台。 解决分布式计算系统(MapReduce),在各个集群中的启动,分配,提高了集群利用率,资源统一管理,共享带来好处。扩展一下:在Hadoop 核心之上,又开发了大量的相关组件,可以方便解决一些场景问题:Hive : 可以通过写sq原创 2022-09-04 22:59:38 · 1064 阅读 · 2 评论 -
前期准备:安装Vmware虚拟机
安装虚拟机,加载CentOS系统。原创 2022-09-03 21:40:56 · 910 阅读 · 2 评论