MC柱柱-CSDN博客

原创 DataX的使用与介绍（1）

一、什么是DataX？DataX是阿里云商用产品DataWorks数据集成的开源版本，它是一个异构数据源的离线数据同步工具/平台（ETL工具）。DataX实现了包括Mysql，Oracle、OceanBase、Sqlserver，Postgre、HDFS、Hive、ADS、HBase、TableStore（OTS）、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能。Tips:异构即不同类型的应用或者数据源，例如Mysql/Oracle/DB2/MongD

2022-09-06 10:31:40 1876

原创大数据学习之路，Flume的介绍与实现

一.Flume项目背景1.Flume介绍Flume基于流式架构是一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。本项目Flume实时读取服务器本地目录下生成的埋点数据，将数据实时写入到HDFS.涉及几十甚至上百的web服务器2.Flume基础架构一、核心组件介绍1）Agent:Agent是一个JVM进程，它以事件的形式将数据从源头送至目标地。主要有3个部分组成，Source、Channel、Sink。2）SourceSource是负责接收数据到Flume Agen

2022-04-21 18:37:48 2318

原创大数据学习之路，hive的优化以及函数包的导入（4）

hive的四大byorder by （全局排序）例子：select * from emp order by sal;只有一个reduce，无论设置多少个reduce,都是一个优点:全局排序缺点：当数据量大的时候，耗时长，效率低适用较小数据量的场景sort by （分区内排序)对每一个reduce内部的数据进行排序，全局结果来说不是排序的，也就是说只能保证每一个reduce输出的文件中的数据是按照规定字段排序的，适用于数据量大，但是对排序要求不严格的场景，可以大幅提高执行效率；set ma

2022-04-11 16:47:09 309

原创大数据学习之路，Spark的介绍、部署以及wordcount实例的实现（1）

Spark简介什么是Spark？Apache Spark是一种多语言引擎，用于在单节点机器或集群上执行数据工程、数据科学和机器学习。Spark的发展Spark的安装检查检查HDFS、YARN环境[vagary@vagary ~]$ jps4736 NameNode5490 NodeManager5106 SecondaryNameNode4870 DataNode5881 Jps5375 ResourceManager检查Java环境[vagary@vagary ~]$ ja

2022-04-10 04:35:16 1632

原创大数据学习之路，hive的介绍和安装（1）

hive简介hive的定义hadoop 广义是大数据生态圈，其中hive是使用sql完成大数据统计分析的工具；hadoop狭义：就是由HDFS， MR， yarn组成；hive是Facebook公司开源的工具，用来解决海量的结构化日志的统计问题；hive是构建在Hadoop之上的数据仓库；组成HDFShive的数据是存放在HDFS（distributed storge）,元数据（metadata）存放在对应的底层数据库，并且一般是MySQL；MR（计算引擎）hive的作业（SQL）是通过

2022-04-01 00:47:58 325

原创大数据学习之路，Hadoop中可优化的操作点

combiner(预聚合)介于map和reduce之间的一个reduce操作，但是是运行在MapTask；作用：减少数据的网络传输，是一个非常重要的调优点举个简单的例子：MapTask1:(a,1)(a,1)(b,1)(b,1)MapTask2:(a,1)(a,1)(b,1)经过shuffle后有两个reduceReduceTask1:(a,(1,1,1,1))ReduceTask2:(b,(1,1,1))如果预聚合一下呢？MapTask1:(a,2)(b,2)MapTask2:(a,

2022-03-30 20:44:54 1782

原创 Linux环境下，Mysql（rpm方式）的安装

检查环境中是否已安装 MySQL[vagary@vagary ~]$ rpm -qa | grep mysql[vagary@vagary ~]$返回空值的话，就说明没有安装 Mysql 。　　注意：在新版本的CentOS7中，默认的数据库已更新为了Mariadb，而非 MySQL，所以执行 yum install mysql 命令只是更新Mariadb数据库，并不会安装 Mysql。如果已安装的 MySQL 版本不是想要的版本。需要把原来的 Mysql 卸载。[vagary@vagary ~]

2022-03-29 02:22:46 3193

原创大数据学习之路，MapReduce的实例（Wordcount）代码实现

编写Mapper类，实现map功能package MR_wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/** *LongWritable :输入的key类型偏移量

2022-03-29 00:53:09 461

原创大数据学习之路，MapReduce的实例（Wordcount）代码实现和windows环境准备

安装代码编译器这里推荐使用IDEA，具体破解说明和安装包的百度网盘下载链接：https://pan.baidu.com/s/1oQkc4bwTCwx3XKxu9GfB0w提取码：i3keMAVEN环境安装这里推荐使用MAVEN3.6.3版本，高版本的可能会出现一些安全问题，比如只能用https具体安装包百度网盘链接：https://pan.baidu.com/s/10NbGLU308S6_sbzA3LmWwg提取码：ji7u下载完成之后，解压开，在setting.xml文件中添加一些配置，将本地

2022-03-27 19:54:53 2377

原创大数据学习之路，MapReduce的实例（WordCount）解析

图解MR(WC)第一步，input读取文件内容第二步，split 分片一个块容量（blocksize）是128M，假如300MB的一个文件,blocksize默认是128M，那么分成3个块去存储；如果一个文件大小为128.01MB，因为128M是有buffer，缓冲大小为10%，最后需要其实也就是一个块第三步，map将word => (word,1) ，类似于key-value键值对第四步，shuffle洗牌默认按照key的hash值进行分发,（也可以不用hash值分发，也可以用其

2022-03-27 17:17:28 1686

原创大数据学习之路，yarn的介绍

yarn 资源调度分配Mapreduce on yarnyarn主要的模块ResourceManager（RM）yarn的资源控制框架的中心模块，负责集群中所有的资源的统一管理和分配。ResourceScheduler（调度器）根据各个应用程序的资源需求，进行分配。Applications Manger（应用管理器）负责监控或跟踪AM的执行状态。NodeManger（名称节点，简称NM)是ResourceManager每台机器上的代理，负责容器的管理，并监控他们的资源使用情况（CPU，内

2022-03-26 19:57:37 1476

原创大数据学习之路，HDFS的认识之读写流程（2）

HDFS的读写流程HDFS的读流程注解：HDFS client 调用FileSystem.open(filePath),与NameNode进行【RPC】通信（远程过程调用),返回该文件的block列表，然后返回给FSDataInputStream 对象，接下来HDFS cliet 调用FSDataInputStream .read方法与第一个块最近的DataNode进行读取，读取完成后，检查是否读完ok？如果ok，就会关闭与DataNode通信，如果不ok，就从第二个节点去读取，以此类推，当bloc

2022-03-23 20:16:31 1125