【hive】
曲健磊的个人博客
just do it!
展开
-
如何用 Hive 的内置函数 parse_url 统计出访问量最高的前 3 个url?
一、需求使用 Hive 统计出过去 7 天的访问日志中访问次数最多的前 3 个 url 的请求路径。二、知识点使用 Hive 的内置函数 parse_url 解析出 url 字段中的请求路径,官网(Hive内置函数)示例如下:基本用法如下:-- 例:获取 url 中的主机名select parse_url('http://facebook.com/path1/p.php?k1=v1&...原创 2019-12-22 11:54:25 · 761 阅读 · 0 评论 -
如何创建 Hive 表的几种类型?
基于 MySql 的远程模式安装的 Hive 中的表存储在 hdfs 的 /user/hive/warehouse 目录下。hive 的表主要有 5 中类型:内部表分区表外部表桶表视图一、内部表表对应一个目录,表中的数据对应一个文件文件存储在 hdfs 的 Datanode 的数据块中,数据块默认的大小是 128m(Hadoop2.x的版本,1.x版本是 64m)...原创 2019-02-15 16:59:38 · 1729 阅读 · 0 评论 -
使用JDBC操作Hive
首先启动 Hive 的远程服务:hiveserver2 &所需 jar 包的 pom 文件如下:<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> &原创 2019-02-16 22:16:39 · 1036 阅读 · 0 评论 -
如何创建 Hive 的 UDF?
UDF(User Defined Function)又称:用户自定义函数。可以像 concat, substr那样的 hive 内置的函数一样直接用于 select 语句,简化复杂查询。编写 UDF 其实就是写一个类继承 org.apache.hadoop.hive.ql.exec.UDF 该类,在类里面写一个名为 evaluate 的方法,在方法里写相应的业务逻辑,最后打成 jar 包,提交到...原创 2019-02-17 13:45:56 · 936 阅读 · 0 评论 -
Hive性能优化秘籍
1. Fetch抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees; 在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。修改 hive-default.xml.template 文件中 hive.fetch.task.conversion...原创 2019-05-16 11:54:39 · 435 阅读 · 0 评论