hive编程指南
小亚文
我喜欢随遇而安的生活,但我更需要自身的努力来创造更好的生活
展开
-
kettle之转换嵌套转换问题
在kettle中如果转换中还调用了转换,需要用过滤记录和中止来判断是否转换内容成功。否则,运行失败了,也会显示成功。这样计算数据会出现问题。如下图中用ExecutionNrErrors参数个数是否大于0判断运行成功与否。如果大于0说明失败,则进行中止。原创 2023-08-08 17:00:42 · 285 阅读 · 0 评论 -
kettle之Switch/Case 插件
插件运行下一步的表输入中执行hivesql需选上下面红色方框的,否则Switch/Case分支不生效!Switch/Case 插件存在于转换中,用于进行分支选择。原创 2023-08-08 16:48:16 · 266 阅读 · 0 评论 -
hive 字段注释乱码
【代码】hive 字段注释乱码。原创 2023-08-08 16:36:23 · 509 阅读 · 0 评论 -
hive 基本处理--权重采样和
1.权重采样:权重weight越大,采样的频率越高pow(rand(), 1/(weight+0.01))2.hive 增加字段和删除字段增加字段示例:一次增加一个列(默认添加为最后一列)ALTER TABLE table ADD COLUMNS (new_col int); 删除示例:原有Hive表table_test中有a,b,c,d,e这几个字段 将从table_test中删除“d”列: ALTER TABLE table_testREPLACE COLUMNS (a int,原创 2021-02-09 16:47:50 · 1003 阅读 · 0 评论 -
hive 中join和Group的优化
group by 优化set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 Trueset hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目set hive.groupby.skewindata = true; //解决数据倾斜的万能钥匙join 优化s...原创 2020-02-20 18:03:23 · 622 阅读 · 0 评论 -
hive 中mapjoin 出现情况分析
1.当两个表join的时候,当一方表数据量比较小的时候,运行hive的时候会自动进行mapjoin,但是进行mapjoin数据又跑不动,现在需要运行的时候加一句:关闭mapjionset hive.auto.convert.join = false; 2.mapjoin 优化,使用一张表数据小于1000行3....原创 2020-01-02 16:56:54 · 668 阅读 · 0 评论 -
hive表在join on和在where上过滤对比
一、left join 在on 和where 过滤对比A表结构以及数据:id name grade dept1 cid1 100 102 cid2 90 203 cid3 60 104 cid4 80 105 cid5 70 20B表结构以及数据:id name10 IT120 I...原创 2018-11-19 11:46:49 · 847 阅读 · 0 评论 -
hive left join 条件on 和 where 的放置
http://blog.csdn.net/muxiaoshan/article/details/7617533转载 2017-11-27 13:35:32 · 6746 阅读 · 0 评论 -
hive split 分隔分号问题
Hive解析语句的时候,只要遇到分号就认为语句结束,而无论是否用引号包含起来。 解决的办法是,使用分号的八进制的ASCII码进行转义,那么上述语句应写成: split(sub_type,’\073’) 用分号的转义字符\073 如CREATE TABLE中需要定义分隔符,那么对不可见字符做分隔符就需要用八进制的ASCII码来转义。参考: http://blog.csdn.net/lxpbs转载 2017-10-26 13:44:55 · 6232 阅读 · 1 评论 -
hive--基础操作
连接字符串CONCAT_WS(separator, str1, str2,…)它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间.hive> SELECT CONCAT_WS(“,”,”First name”,转载 2017-10-25 13:10:16 · 169 阅读 · 0 评论 -
hive UDF自定义函数 map处理
创建工程新建JAVA或者maven项目,并添加 hive-exec-2.1.0.jar 和hadoop-common-2.7.3.jar hive-exec-2.1.0.jar 在HIVE安装目录的lib目录下,从安装目录直接下载放到工程中即可 hadoop-common-2.7.3.jar在hadoop的安装目录下的\share\hadoop\common编写自定义UDF函数当写hive转载 2017-11-10 13:46:41 · 5335 阅读 · 0 评论 -
hive 自定义UDF处理的一些网址
参考 1. http://blog.csdn.net/shingle_/article/details/71480334(pandas) 2. http://www.cnblogs.com/timtike/p/6562402.html (字典) 3. http://blog.csdn.net/qq_15034741/article/details/50699180 4. http://www转载 2017-11-08 14:32:32 · 429 阅读 · 0 评论 -
hive 行转列 分割
1、explodeexplode(ARRAY) 列表中的每个元素生成一行 explode(MAP) map中每个key-value对,生成一行,key为一列,value为一列限制: 1、No other expressions are allowed in SELECT SELECT pageid, explode(adid_list) AS myCol… is not su转载 2017-10-27 15:46:48 · 969 阅读 · 0 评论 -
hive 分区
hive分区包括静态分区和静态分区 好的连接: http://blog.csdn.net/jiedushi/article/details/6778521转载 2017-10-27 15:42:54 · 226 阅读 · 0 评论