![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据技术
文章平均质量分 80
@我不是大鹏
上尚若水
展开
-
一、大数据技术之Flume(简介)
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。原创 2023-07-19 22:38:46 · 295 阅读 · 0 评论 -
九、大数据技术之Hive
一、Hive基本概念1.1 什么是Hive1) hive简介Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。2) Hive本质:将HQL转化成MapReduce程序(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上1.2Hive的优缺点1.2.1 优点(1)操作接口采用类SQL语法,提供快原创 2022-05-30 21:53:05 · 1259 阅读 · 1 评论 -
八、大数据技术之Zookeeper
一、Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应.Zookeeper = 文件系统 + 通知机制1.2 特点1.3 数据结构1.4 应用场景提供的服务包括:统一原创 2022-05-27 11:23:18 · 183 阅读 · 0 评论 -
七、大数据技术之Hadoop(MapReduce)
一、MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并行运行在一个Hadoop集群上。1.2 MapReduce优缺点1.2.1 优点1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序原创 2022-05-24 14:48:22 · 4017 阅读 · 0 评论 -
六、大数据技术之Hadoop(HDFS)
一、HDFS概述1.1 HDFS产出背景及定义1.2 HDFS优缺点1.3 HDFS组成架构1.4 HDFS文件块大小(面试重点)二、HDFS的Shell操作(开发重点)2.1 基本语法hadoop fs 具体命令 OR hdfs dfs 具体命令两个是完全相同的。2.2 命令大全#查看所有命令bin/hadoop fs2.3 常用命令实操2.3.1 准备工作1)启动Hadoop集群(方便后续的测试)sbin/start-dfs.shsbin/start原创 2022-05-15 16:40:21 · 703 阅读 · 0 评论 -
五、大数据技术之hadoop(入门)
一、简要介绍大数据特点(4V)1、volume 大量2、volocity 高速3、variety 多样4、value 低价值密度hadoop的组成HDFS架构简述yarn的架构简述mapReduce概述二、hadoop集群搭建1)准备一台模板虚拟机hadoop100,虚拟机配置要求如下:注:本文Linux系统环境全部以CentOS-7.5-x86-1804为例说明模板虚拟机:内存4G,硬盘50G,安装必要环境,为安装hadoop做准备[root@ha原创 2022-05-13 21:39:30 · 842 阅读 · 0 评论 -
四、大数据技术之shell编程
一、shell简要介绍1)Linux提供的Shell解析器有:# cat /etc/shells /bin/sh/bin/bash/sbin/nologin/bin/dash/bin/tcsh/bin/csh2)bash和sh的关系,属于 ll | grep bash-rwxr-xr-x. 1 root root 941880 5月 11 2016 bashlrwxrwxrwx. 1 root root 4 5月 27 2017 sh -> bash3)Ce原创 2022-05-10 17:08:28 · 607 阅读 · 0 评论 -
三、大数据技术之Linux下篇(linux学习)
centos镜像地址网易镜像: http://mirrors.163.com/centos/7/isos/搜狐镜像: http://mirrors.sohu.com/centos/7/isos/安装请看上篇Linux系统中一切皆文件Linux目录结构一、vi,vimVI是Unix操作系统和类Unix操作系统中最通用的文本编辑器。VIM编辑器是从VI发展出来的一个性能更强大的文本编辑器。可以主动的以字体颜色辨别语法的正确性,方便程序设计。VIM与VI编辑器完全兼容。1、测试数据准原创 2022-05-09 11:41:11 · 697 阅读 · 0 评论 -
二、大数据技术之Linux上篇(centos的安装)
一、安装CentOS第一步: 装机器1)检查物理机虚拟化支持是否开启,需要进入到BIOS中设置,因各种电脑型号进入BIOS方式不同,同学们自行查找对应品牌电脑如何进入BIOS建议: 先安装,如果安装中提示虚拟化未开启,再进入BIOS设置,如安装一切顺序,则不需要进行任何设置。2)在VMware中新建虚拟机3) 默认即可,不需要做任何修改,直接下一步4)选择稍后安装操作系统,然后下一步5)选择安装的操作系统为Linux,版本为CentOS7 64位7)按照物理机CPU实际情况,选择处原创 2022-05-08 22:02:13 · 264 阅读 · 0 评论 -
一、大数据技术之Maven
一、安装Maven核心程序1)检查JAVA_HOME环境变量。Maven是使用Java开发的,所以必须知道当前系统环境中JDK的安装目录。C:\Windows\System32>echo %JAVA_HOME%D:\Java\jdk1.8.0_1112)解压Maven的核心程序。将apache-maven-3.2.2-bin.zip解压到一个非中文无空格的目录下。例如:D:\apache-maven-3.2.23)配置环境变量(1)在系统变量里面创建M2_HOME变量,并赋值变量:原创 2022-05-08 21:14:52 · 154 阅读 · 0 评论