自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 DataX的使用与介绍(1)

一、什么是DataX?DataX是阿里云商用产品DataWorks数据集成的开源版本,它是一个异构数据源的离线数据同步工具/平台(ETL工具)。DataX实现了包括Mysql,Oracle、OceanBase、Sqlserver,Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS等各种异构数据源之间高效的数据同步功能。Tips:异构即不同类型的应用或者数据源,例如Mysql/Oracle/DB2/MongD

2022-09-06 10:31:40 1756

原创 大数据学习之路,Flume的介绍与实现

一.Flume项目背景1.Flume介绍Flume基于流式架构是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。本项目Flume实时读取服务器本地目录下生成的埋点数据,将数据实时写入到HDFS.涉及几十甚至上百的web服务器2.Flume基础架构一、核心组件介绍1)Agent:Agent是一个JVM进程,它以事件的形式将数据从源头送至目标地。主要有3个部分组成,Source、Channel、Sink。2)SourceSource是负责接收数据到Flume Agen

2022-04-21 18:37:48 2210 1

原创 大数据学习之路,hive的优化以及函数包的导入(4)

hive的四大byorder by (全局排序)例子:select * from emp order by sal;只有一个reduce,无论设置多少个reduce,都是一个优点:全局排序缺点:当数据量大的时候,耗时长,效率低适用较小数据量的场景sort by (分区内排序)对每一个reduce内部的数据进行排序,全局结果来说不是排序的,也就是说只能保证每一个reduce输出的文件中的数据是按照规定字段排序的,适用于数据量大,但是对排序要求不严格的场景,可以大幅提高执行效率;set ma

2022-04-11 16:47:09 250

原创 大数据学习之路,Spark的介绍、部署以及wordcount实例的实现(1)

Spark简介什么是Spark?Apache Spark是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。Spark的发展Spark的安装检查检查HDFS、YARN环境[vagary@vagary ~]$ jps4736 NameNode5490 NodeManager5106 SecondaryNameNode4870 DataNode5881 Jps5375 ResourceManager检查Java环境[vagary@vagary ~]$ ja

2022-04-10 04:35:16 1549

原创 大数据学习之路,hive的介绍和安装(1)

hive简介hive的定义hadoop 广义是大数据生态圈,其中hive是使用sql完成大数据统计分析的工具;hadoop狭义:就是由HDFS, MR, yarn组成;hive是Facebook公司开源的工具,用来解决海量的结构化日志的统计问题;hive是构建在Hadoop之上的数据仓库;组成HDFShive的数据是存放在HDFS(distributed storge),元数据(metadata)存放在对应的底层数据库,并且一般是MySQL;MR(计算引擎)hive的作业(SQL)是通过

2022-04-01 00:47:58 264

原创 大数据学习之路,Hadoop中可优化的操作点

combiner(预聚合)介于map和reduce之间的一个reduce操作,但是是运行在MapTask;作用:减少数据的网络传输,是一个非常重要的调优点举个简单的例子:MapTask1:(a,1)(a,1)(b,1)(b,1)MapTask2:(a,1)(a,1)(b,1)经过shuffle后有两个reduceReduceTask1:(a,(1,1,1,1))ReduceTask2:(b,(1,1,1))如果预聚合一下呢?MapTask1:(a,2)(b,2)MapTask2:(a,

2022-03-30 20:44:54 1733

原创 Linux环境下,Mysql(rpm方式)的安装

检查环境中是否已安装 MySQL[vagary@vagary ~]$ rpm -qa | grep mysql[vagary@vagary ~]$返回空值的话,就说明没有安装 Mysql 。  注意:在新版本的CentOS7中,默认的数据库已更新为了Mariadb,而非 MySQL,所以执行 yum install mysql 命令只是更新Mariadb数据库,并不会安装 Mysql。如果已安装的 MySQL 版本不是想要的版本。需要把原来的 Mysql 卸载。[vagary@vagary ~]

2022-03-29 02:22:46 3093

原创 大数据学习之路,MapReduce的实例(Wordcount)代码实现

编写Mapper类,实现map功能package MR_wc;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/** *LongWritable :输入的key类型 偏移量

2022-03-29 00:53:09 389

原创 大数据学习之路,MapReduce的实例(Wordcount)代码实现和windows环境准备

安装代码编译器这里推荐使用IDEA,具体破解说明和安装包的百度网盘下载链接:https://pan.baidu.com/s/1oQkc4bwTCwx3XKxu9GfB0w提取码:i3keMAVEN环境安装这里推荐使用MAVEN3.6.3版本,高版本的可能会出现一些安全问题,比如只能用https具体安装包百度网盘链接:https://pan.baidu.com/s/10NbGLU308S6_sbzA3LmWwg提取码:ji7u下载完成之后,解压开,在setting.xml文件中添加一些配置,将本地

2022-03-27 19:54:53 2321

原创 大数据学习之路,MapReduce的实例(WordCount)解析

图解MR(WC)第一步,input读取文件内容第二步,split 分片一个块容量(blocksize)是128M,假如300MB的一个文件,blocksize默认是128M,那么分成3个块去存储;如果一个文件大小为128.01MB,因为128M是有buffer,缓冲大小为10%,最后需要其实也就是一个块第三步,map将word => (word,1) ,类似于key-value键值对第四步,shuffle洗牌默认按照key的hash值进行分发,(也可以不用hash值分发,也可以用其

2022-03-27 17:17:28 1615

原创 大数据学习之路,yarn的介绍

yarn 资源调度分配Mapreduce on yarnyarn主要的模块ResourceManager(RM)yarn的资源控制框架的中心模块,负责集群中所有的资源的统一管理和分配。ResourceScheduler(调度器)根据各个应用程序的资源需求,进行分配。Applications Manger(应用管理器)负责监控或跟踪AM的执行状态。NodeManger(名称节点,简称NM)是ResourceManager每台机器上的代理,负责容器的管理,并监控他们的资源使用情况(CPU,内

2022-03-26 19:57:37 1403

原创 大数据学习之路,HDFS的认识之读写流程(2)

HDFS的读写流程HDFS的读流程注解:HDFS client 调用FileSystem.open(filePath),与NameNode进行【RPC】通信(远程过程调用),返回该文件的block列表,然后返回给FSDataInputStream 对象 ,接下来HDFS cliet 调用FSDataInputStream .read方法与第一个块最近的DataNode进行读取,读取完成后,检查是否读完ok?如果ok,就会关闭与DataNode通信,如果不ok,就从第二个节点去读取,以此类推,当bloc

2022-03-23 20:16:31 1086

原创 大数据学习之路,HDFS的介绍(1)

HDFS相关命令了解hdfs dfsadmin 的一个例子:hdfs dfsadmin -safemode get 含义:获取 hdfs的安全模式[vagary@vagary ~]$ hdfs dfsadmin -safemode getSafe mode is OFF安全模式off的情况下,读写都是可以的;安全模式on的情况下,读是可以的,但是写不行;注释:这里声明一下,安全模式正常情况下关着比较好,因为进入安全模式有两种情况,第一种主动进入,说明hdfs集群有问题,因为安全模式相当于一种

2022-03-20 19:15:08 181

原创 Hadoop学习之路,YARN的配置与安装(2)

Hadoop中YARN的配置etc/hadoop/mapred-site.xml文件编辑<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>etc/hadoop/yarn-site.xm

2022-03-19 19:05:11 2187 3

原创 Hadoop的学习之路,Hadoop环境的搭建(1)

Apache版Hadoop的下载与安装首先,我们要下载Hadoop安装包,这里我放的apache版Hadoop3安装包,百度网盘下载链接:https://pan.baidu.com/s/1fKtGK_QrxQ5ngiPuILWOkA提取码:y5st以及相应的java安装包,如果java环境版本和Hadoop版本不适配会导致安装失败:链接:https://pan.baidu.com/s/1VFEVhW_yW96TA9kk5VCEQg提取码:jr04将Hadoop安装包解压[vagary@vaga

2022-03-17 22:12:07 1217

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除