Hive
文章平均质量分 76
OnTheRoad_Kang
比你优秀的还比你努力你有什么资格不去努力
展开
-
Hive下 HQL使用(库、表、区)
准备:Mysql&Hive:Mysql&Hive:基于Hive的伪分布式Hadoop集群环境的配置的博客hive使用(HQL)不用进入hive的客户端,可以使用如下命令来查看$ hive -e 'show databases'数据库操作创建数据库:create database db;如果数据库不存在就创建:create database if not exists db;在指定的...原创 2018-04-08 10:25:47 · 10295 阅读 · 0 评论 -
大数据大纲&大数据生态圈所涉及的技术
今天博主是做一个大概的概述,缺少的章节会在后面慢慢补充,感兴趣的同学可以在下面评论留言。数据可视化展示中心:KIbana官网:点击打开链接用户指南:点击打开链接Grafana官网:点击打开链接Grafana帮助文档:点击打开链接大数据特征:1)大量化(Volume):存储量大,增量大 TB->PB2)多样化(Variety):来源多:搜索引擎,社交网络,通话记录,传感器格式多:(非)结...原创 2018-03-09 09:36:20 · 21480 阅读 · 4 评论 -
Hive概述纲要、环境配置以及HQL使用
hive概述Hive产生背景Hive是什么为什么要使用Hivehive的数据结构hive的基本操作hive的数据类型hive 元数据Hive的体系架构 Hive部署架构Hive与RDBMS的关系、区别Hive的优缺点Hive适用场景hive存储文件格式和压缩Hive环境搭建hive概述hive是大数据仓库软件,它提供了sql的方式简化大数据mapreduce的数据读取写入统计。并提供了多种使用途径...原创 2018-03-05 08:59:34 · 10685 阅读 · 0 评论 -
hive处理小文件(进行map、reduce、压缩、归档优化解决)
背景Hive query将运算好的数据写回hdfs(比如insert into语句),有时候会产生大量的小文件,如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的map task,耗费大量集群资源,而且小文件过多会对namenode造成很大压力。所以Hive在正常job执行完之后,会起一个conditional task,来判断是否需要合并小文件,如果...原创 2018-12-05 16:28:18 · 11884 阅读 · 0 评论 -
Hive常用性能调优&&常见问题参考&&MR作业调优
设置队列Hive中所有MapReduce作业都提交到队列queue1中,对本次启动的会话有效,下次启动需要重新配置hive --hiveconf mapreduce.job.queuename=queue1设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;控制Hive中map的数量hive.mer...原创 2018-12-29 09:59:43 · 10516 阅读 · 0 评论 -
hive压缩&&hdfs合并小文件
hdfs合并小文件hadoop fs -getmerge hdfs文件夹路径 合并本地的文件名如果hdfs误删除文件或者hive误删除文件/user/hadoop/.Trash/Current 这个地址下有文件备份,文件备份保留七天(core配置文件可以设置)hive压缩压缩的好处:(执行查询时会自动解压)可以节约磁盘的空间,基于文本的压缩率可达40%+;压缩可以增加吞吐量和性...原创 2019-01-04 11:18:53 · 10968 阅读 · 0 评论 -
数据处理之搜索关键词分析
####离线数据处理,hive分析(保留汉子、字母、数字、开头数字去除、过滤垃圾数据)select content,count(1) wordsnumber from (select regexp_replace(split(eventname,'_')[1],' |,|:|/|-|\r|\n|[[^0-9a-zA-Z\\\u4e00-\\\u9fa5]]','') content from...原创 2019-05-27 16:09:47 · 2330 阅读 · 0 评论