Hadoop大数据
悟空非空也
全网同名|码城创始人(codecity.tech)
高级架构师|CTO
多年互联网上市公司工作经验
分享技术经验和面试指导以及内推
展开
-
超级简单入门,日志管理系统Flume1.8.0的安装和配置和启动
Flume简介Flume原是Cloudera公司提供的一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统,而后纳入到了Apache旗下,作为一个顶级开源项目。Apache Flume不仅只限于日志数据的采集,由于Flume采集的数据源是可定制的,因此Flume还可用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。准备工作Linux操作系统flume8.0安装包(见文末或者官网下载)Flume运行机制Flume的核心是把数据从数据原创 2020-10-18 18:30:17 · 738 阅读 · 0 评论 -
超级简单,最详细讲解Linux下Zookeeper的分布式集群部署和启动运行
前言Zookeeper分布式集群部署指的是ZooKeeper分布式模式安装。Zookeeper集群搭建通常是由2n+1台服务器组成,这是为了保证 Leader 选举(基于Paxos算法的实现)能够通过半数以上台服务器选举支持,因此,ZooKeeper集群的数量一般为奇数台。准备工作3 台 Linux集群搭建如何在虚拟机中安装Linux系统并且搭建Linux集群?https://www.bilibili.com/read/cv7525045zookeeper3.4.10安装包(up主提供原创 2020-09-30 17:37:17 · 425 阅读 · 0 评论 -
Hadoop大数据技术教程( wukong-1.0v)
1 初识Hadoop什么是大数据随着近几年计算机技术和互联网的发展,“大数据”这个词被提及的越来越频繁。与此同时,大数据的快速发展也在无时无刻影响着我们的生活。例如,医疗方面,大数据能够帮助医生预测疾病;电商方面,大数据能够向顾客个性化推荐商品;交通方面,大数据会帮助人们选择最佳出行方案。Hadoop作为一个能够对大量数据进行分布式处理的软件框架,用户可以利用Hadoop生态体系开发和处理海量数据。由于Hadoop有可靠及高效的处理性能,使得它逐渐成为分析大数据的领先平台。高速发展的信息时代,新一轮原创 2020-09-22 12:10:53 · 4230 阅读 · 0 评论 -
最全源码提供,直接Copy拿走,如何使用Java API操作HDFS
前言由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。使用HDFS提供的Java API构造一个访问客户端对象,然后通过客户端对象对HDFS上的文件进行操作(增、删、改、查)。准备工作Hadoop集群搭建请参考文章 https://www.bilibili.com/read/cv7591643hadoop-win-2.7.7 window简化阉割版(up主提供,下载链接请见文末)步骤1.在Window系统下,配置hadoop环境,使用Jav原创 2020-09-14 20:00:49 · 1748 阅读 · 0 评论 -
初学者都会使用,Hadoop经典案例单词统计Demo演示
前言学习Hadoop的第一案例,大家都喜欢使用单词统计demo该功能的实现,使用了hadoop自带的jar包:hadoop-mapreduce-examples-2.7.4.jar准备工作请阅读文章 https://www.bilibili.com/read/cv7591643步骤1 打开HDFS的UI界面,查看HDFS中是否有数据文件,默认是没有数据文件。2 准备文本文件,在Linux系统上编辑一个文本文件,然后上传至HDFS上。#在linux系统中创建一个目录,创建一个文件,写点内原创 2020-09-14 12:46:23 · 548 阅读 · 1 评论 -
最详细讲解,保姆式操作,Linux集群下Hadoop的安装、配置、启动以及UI界面访问
前言Hadoop包含2个基本组件:HDFS和Yarn。前者负责存储文件,后者负责管理文件。HDFS分布式文件系统HDFS是Hadoop的分布式文件系统,它是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础。Yarn资源管理框架Yarn(Yet Another Resource Negotiator)是Hadoop 2.0中的资源管理器,它可为上层应用提供统一的资源管理和调度。准备工作Linux系统和已经安装jdkjdk的安装步骤参考: https://www.bili原创 2020-09-13 18:31:01 · 1136 阅读 · 0 评论