hhhecker-CSDN博客

原创 Hadoop学习——Hive核心操作

·查看数据库列表·选择数据库default是默认数据库，默认就在这个库里面hive的数据都是存储在hdfs上，那这里的default数据库在HDFS上是如何体现的？在hive-site.xml中有一个参数hive.metastore.warehouse.dir它的默认值是/user/hive/warehouse，表示hive的default默认数据库对应的hdfs存储目录。HDFS上确实有这个目录，并且这个目录下还有一个t1目录，其实这个t1就是我们前面在default数据库中创建的那个t1表，从

2022-06-16 11:46:32 1562

原创 Hive安装部署

Hive相当于Hadoop的客户端工具，安装时不一定非要放在集群的节点中，可以放在任意一个集群客户端节点上都可以1.接着把下载好的hive安装包上传到bigdata04机器的/data/soft目录中，并且解压2:接着需要修改配置文件，进入hive的conf目录中，先对这两个模板文件重命名3:然后再修改这两个文件的内容注意：在hive-site.xml文件中根据下面property中的name属性的值修改对应value的值，这些属性默认里面都是有的，所以都是修改对应的value的值即可由于这里面需要指

2022-06-09 18:07:13 598 1

原创数据库和数据仓库区别

数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：主要做一些复杂的分析操作，侧重决策支持，相对数据库而言，数据仓库分析的数据规模要大得多。但是数据仓库只支持查询操作，不支持修改和删除数据库与数据仓库的本质区别就是 OLTP与OLAP 的区别• OLTP(On-Line Transaction Processing)：操作型处理，称为联机事务处理，也可以称为面向交易的处理系统，它是针对具体业务在数据库联机的日常操作，通常对少数记录进行查询

2022-06-08 22:44:54 484

原创快速了解Hive

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载，可以简称为ETL。Hive 定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户直接查询Hadoop中的数据，同时，这个语言也允许熟悉MapReduce的开发者开发自定义的mapreduce任务来处理内建的SQL函数无法完成的复杂的分析任务。Hive中包含的有SQL解析引擎，它会将SQL语句转译成M/R Job,然后在Hadoop中执行。通过这里的分析我们可以了解到Hive可以通过sql查询Ha

2022-06-08 22:23:25 445

原创 Hadoop之数据倾斜问题

想提高MapReduce的执行效率,MapReduce是分为Map阶段和Reduce阶段，其实提高执行效率就是提高这两个阶段的执行效率默认情况下Map阶段中Map任务的个数是和数据的InputSplit相关的，InputSplit的个数一般是和Block块是有关联的，所以可以认为Map任务的个数和数据的block块个数有关系，针对Map任务的个数我们一般是不需要干预的，除非是前面我们说的海量小文件，那个时候可以考虑把小文件合并成大文件。其他情况是不需要调整的，那就剩下Reduce阶段了，咱们前面说.

2022-05-19 19:13:04 544