hadoop
文章平均质量分 67
hadoop学习
Junfeng Tang
无论之前的人生发生过什么,都对今后的人生如何度过没有影响。
展开
-
Flume
Flume 介绍 Flume是一个高可用,高可靠,分布式的海量日志采集、聚合和传输的系统,能够有效的收集、聚合、移动大量的日志数据。 Agent是由Source、Channel、Sink这三大组件组成的,这就是Flume中的三大核心组件,其中source是数据源,负责读取数据channel是临时存储数据的,source会把读取到的数据临时存储到channel中sink是负责从channel中读取数据的,最终将数据写出去,写到指定的目的地中。 Flume的三大核心组件 Sour.原创 2021-08-10 09:14:31 · 204 阅读 · 0 评论 -
HDFS解析
体系结构 HDFS支持主从结构,主节点称为NameNode,是因为主节点上运行的有NameNode进程,NameNode支持多个,目前我们的集群中只配置了一个 从节点称为DataNode,是因为从节点上面运行的有DataNode进程,DataNode支持多个,目前我们的集群中有两个 HDFS中还包含一个SecondaryNameNode进程,这个进程从字面意思上看像是第二个NameNode的意思,其实不是,一会我们会详细分析。 在这大家可以这样理解: 公司BOSS:NameNode 秘书:Sec原创 2021-07-16 15:58:18 · 367 阅读 · 0 评论 -
JAVA操作HDFS
HDFS介绍 HDFS的全称是Hadoop Distributed File System ,Hadoop的 分布式 文件 系统 它是一种允许文件通过网络在多台主机上分享的文件系统,可以让多台机器上的多个用户分享文件和存储 空间 其实分布式文件管理系统有很多,HDFS只是其中一种实现而已 还有 GFS(谷歌的)、TFS(淘宝的)、S3(亚马逊的) 为什么会有多种分布式文件系统呢?这样不是重复造轮子吗? 不是的,因为不同的分布式文件系统的特点是不一样的,HDFS是一种适合大文件存储的分布式文件系原创 2021-07-13 09:47:13 · 229 阅读 · 0 评论 -
Hadoop安装(集群版)
一主两从集群 192.168.32.128 bigdata01 192.168.32.129 bigdata02 192.168.32.130 bigdata03 基础环境准备 关闭防火墙 systemctl stop firewalld systemctl disable firewalld 修改主机名 vim /etc/hostname 免登录设置 ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/auth原创 2021-07-12 16:32:30 · 154 阅读 · 0 评论 -
Hadoop安装(伪集群)
Hadoop文档地址 https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 设置静态IP vim /etc/sysconfig/network-scripts/ifcfg-ens33 增加后三行 IPADDR=192.168.32.128 GATEWAY=192.168.32.2 DNS1=192.168.32.2 然后重启网络:service network.原创 2021-07-05 12:26:14 · 123 阅读 · 2 评论 -
Hadoop初识
大数据的4V特性 Volume:量大,存储量大,计算量大 Variety:多样,来源多,格式多 Value:价值,价值密度低 Velocity:快速,数据增长速度快,处理速度要求快 Hadoop Hadoop适合海量数据分布式存储和分布计算。 Hadoop的作者Doug Cutting,Hadoop是作者的孩子给他的毛绒象玩具器的名字。 版本: Apache Hadoop:官方版本。 Cloudera Hadoop(CDH):商业版本。 HortonWorks(HDP):开源。原创 2021-06-30 09:16:21 · 71 阅读 · 0 评论