- 博客(11)
- 收藏
- 关注
原创 Hadoop学习——Hive核心操作
·查看数据库列表·选择数据库default是默认数据库,默认就在这个库里面hive的数据都是存储在hdfs上,那这里的default数据库在HDFS上是如何体现的?在hive-site.xml中有一个参数hive.metastore.warehouse.dir它的默认值是/user/hive/warehouse,表示hive的default默认数据库对应的hdfs存储目录。HDFS上确实有这个目录,并且这个目录下还有一个t1目录,其实这个t1就是我们前面在default数据库中创建的那个t1表,从
2022-06-16 11:46:32 1381 1
原创 Hive安装部署
Hive相当于Hadoop的客户端工具,安装时不一定非要放在集群的节点中,可以放在任意一个集群客户端节点上都可以1.接着把下载好的hive安装包上传到bigdata04机器的/data/soft目录中,并且解压2:接着需要修改配置文件,进入hive的conf目录中,先对这两个模板文件重命名3:然后再修改这两个文件的内容注意:在hive-site.xml文件中根据下面property中的name属性的值修改对应value的值,这些属性默认里面都是有的,所以都是修改对应的value的值即可由于这里面需要指
2022-06-09 18:07:13 542 1
原创 数据库和数据仓库区别
数据库:传统的关系型数据库主要应用在基本的事务处理,例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库:主要做一些复杂的分析操作,侧重决策支持,相对数据库而言,数据仓库分析的数据规模要大得多。但是数据仓库只支持查询操作,不支持修改和删除数据库与数据仓库的本质区别就是 OLTP与OLAP 的区别• OLTP(On-Line Transaction Processing):操作型处理,称为联机事务处理,也可以称为面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询
2022-06-08 22:44:54 457
原创 快速了解Hive
Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载,可以简称为ETL。Hive 定义了简单的类SQL查询语言,称为HQL,它允许熟悉SQL的用户直接查询Hadoop中的数据,同时,这个语言也允许熟悉MapReduce的开发者开发自定义的mapreduce任务来处理内建的SQL函数无法完成的复杂的分析任务。Hive中包含的有SQL解析引擎,它会将SQL语句转译成M/R Job,然后在Hadoop中执行。通过这里的分析我们可以了解到Hive可以通过sql查询Ha
2022-06-08 22:23:25 415
原创 Hadoop之数据倾斜问题
想提高MapReduce的执行效率,MapReduce是分为Map阶段和Reduce阶段,其实提高执行效率就是提高这两个阶段的执行效率默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的,InputSplit的个数一般是和Block块是有关联的,所以可以认为Map任务的个数和数据的block块个数有关系,针对Map任务的个数我们一般是不需要干预的,除非是前面我们说的海量小文件,那个时候可以考虑把小文件合并成大文件。其他情况是不需要调整的,那就剩下Reduce阶段了,咱们前面说.
2022-05-19 19:13:04 487
原创 Hadoop之实战WordCount
大致流程如下:第一步:开发Map阶段代码第二步:开发Reduce阶段代码第三步:组装Job在idea中创建WordCountJob类添加注释,梳理一下需求:需求:读取hdfs上的hello.txt文件,计算文件中每个单词出现的总次数hello.txt文件内容如下:hello youhello me最终需要的结果形式如下:hello 2me 1you 1先创建map阶段的代码,在这里需要自定义一个mapper类,继承框架中的Mapper类public static.
2022-05-19 19:10:17 1806
原创 Hadoop之深入MapReduce
MapReduce任务日志查看如果想要查看mapreduce任务执行过程产生的日志信息怎么办呢?是不是在提交任务的时候直接在这个控制台上就能看到了?先不要着急,我们先在代码中增加一些日志信息,在实际工作中做调试的时候这个也是很有必要的在自定义mapper类的map函数中增加一个输出,将k1,v1的值打印出来protected void map(LongWritable k1, Text v1, Context context) throws IOException, Interrupte
2022-05-16 21:47:11 113
原创 Hadoop之剖析小文件问题
Hadoop的HDFS和MapReduce都是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源针对HDFS而言,每一个小文件在namenode中都会占用150字节的内存空间,最终会导致集群中虽然存储了很多个文件,但是文件的体积并不大,这样就没有意义了。针对MapReduce而言,每一个小文件都是一个Block,都会产生一个InputSplit,最终每一个小文件都会产生一个map任务,这样会导致同时启动太多的Map任务,Map任务的启动是非常消耗性能的,但是启动了以后执.
2022-05-16 21:45:04 296
原创 Hadoop之Java操作HDFS
在具体操作之前需要先明确一下开发环境,代码编辑器使用idea,当然了eclipse也可以这里使用的是idea 2021.2.2版本 2020版本的进行后续的实验时出现问题 更新版本后就好了在创建项目的时候我们会创建maven项目,使用maven来管理依赖,是比较方便的.在这里我们使用apache-maven-3.0.5-bin.zip ,当然了,其它版本也可以,没有什么本质的区别把apache-maven-3.0.5-bin.zip解压到某一个目录下面,在这里我解压到了D:\Prog.
2022-05-15 19:34:38 735
原创 Hadoop之hdfs操作
HDFS的常见Shell操作直接在命令行中输入hdfs dfs,可以查看dfs后面可以跟的所有参数注意:这里面的[]表示是可选项,<>表示是必填项[root@bigdata01 hadoop-3.3.2]# hdfs dfsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> .
2022-05-15 19:25:53 3576
原创 Hadoop集群配置
伪分布集群安装配置环境linux系统:Centos7虚拟机:VMware Workstation 16 Pro一台Linux机器,也可以称为是一个节点,上面安装的有JDK环境最上面的是Hadoop集群会启动的进程,其中NameNode、SecondaryNameNode、DataNode是HDFS服务的进程,ResourceManager、NodeManager是YARN服务的进程,MapRedcue在这里没有进程,因为它是一个计算框架,等Hadoop集群安装好了以后MapReduce程序可以
2022-05-13 21:11:27 946
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人