Hive
文章平均质量分 77
chenlly99
专注LBS轨迹大数据挖掘,数据仓库建模,基于Hadoop集群的超大规模分布式计算。
展开
-
Spark-基本框架和基本原理
框架执行模式Spark 的执行模式有 local、Yarn、Standalone、Mesos 四类。后面三个分别有 cluster 和 client 二种。client 和 cluster 的区别就是指 Driver 是在程序提交客户端还是在集群的 AM 上。 比如常见的 Yarn-cluster 模式如下图所示:驱动(Driver): 在驱动程序中,通过SparkContext主导应用的执行,SparkContext可以连接不同类型的Cluster Manager(Standalone、YARN原创 2021-04-23 18:09:40 · 302 阅读 · 0 评论 -
sqoop数据导入和导出
sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。sqoop import 导入–connect jdbc:mysql://127.0.0.1:3306/$db_name\ 连接数据库–username root\ 数据库用户名–password root\ 数据库密原创 2021-01-18 10:07:49 · 535 阅读 · 0 评论 -
Hive-性能优化
Hive 优化主要解决几个问题###一、效率低下的原因:1、数据倾斜2、关联操作,job数太多3、小文件太多,导致map性能差数据倾斜是指,在数据量大的情况下,效率较低。比如count(distinct)是按group by 字段分组,按distinct字段排序,一般这种分布方式是很倾斜的。举个例子:比如男uv,女uv,像淘宝一天30亿的pv,如果按性别分组,分配2个reduce,每个reduce处理15亿数据。有数据倾斜时进行负载均衡,set hive.groupby.skewindata,当原创 2020-07-01 11:24:12 · 804 阅读 · 0 评论 -
Hive-UDF函数使用
UDF函数:UDF(User-Defined Functions)即是用户定义的hive函数。hive自带的函数并不能完全满足业务需求,这时就需要我们自定义函数了开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类,并实现evaluate函数实现sha256加密的UDF函数package com.encryption.udf;import org.apache.commons.codec.digest.DigestUtils;import org.原创 2020-06-20 16:11:43 · 742 阅读 · 0 评论 -
Hive-创建表的几种方式
–加载本地文件创建内部表hive -e "use test_bigdata;drop table data_result;CREATE table data_result(c1 String)ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’;LOAD DATA LOCAL INPATH ‘data_id.txt’ INTO TABLE data_result;"–创建外部表hive -e "use test_bigdata;原创 2020-06-20 13:52:15 · 2005 阅读 · 0 评论