![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 61
wangjinyuan161
这个作者很懒,什么都没留下…
展开
-
利用udf函数将Hive统计结果直接插入到MySQL
大部分利用hive做数据分析的步骤是先用hive将统计结果导出到本地文件或者Hive的其他表中,再将本地文件导入到mysql或者利用sqoop将Hive表导入到mysql中。 今天同事给推荐了一个利用udf函数直接将统计结果导入mysql的方法。 步骤为 hive>add jar /usr/lib/hive/lib/hive-contrib-0.9.0-cdh4.1.2.jar; Add...原创 2014-05-13 09:56:34 · 210 阅读 · 0 评论 -
hive metastore 报错 binlog mode 不对问题
2015-11-16 16:33:55,701 WARN metastore.HiveMetaStoreClient (HiveMetaStoreClient.java:executeWithRetry(2472)) - Got Unknown Exception: javax.jdo.JDOException: Couldnt obtain a new sequence (unique...原创 2015-11-17 10:50:10 · 153 阅读 · 0 评论 -
hive insert directory指定分隔符
hive insert directory指定分隔符1.hive0.11以前的版本 hive0.11以前的版本不支持insert directory 后面指定分隔符,但可以通过concat方式来完成 如: insert overwrite directory 'hdfs://localhost:9000/app/test/' select concat(userid,...原创 2015-10-27 11:39:08 · 4099 阅读 · 0 评论 -
hive加载数据到表
hive 表加载数据到表中默认地址是warehouse/tablname/partition设置可以hive-site中设置 假设有表CREATE TABLE user(name STRING,id String)partition by(dt string)1.alter table user add parition(dt='20150916') ...原创 2015-09-16 15:10:12 · 259 阅读 · 0 评论 -
hadoop put 或hive load local file 异常org.apache.hadoop.fs.ChecksumException:
org.apache.hadoop.fs.ChecksumException: Checksum error: /home/name/Desktop/dtlScaleData/attr.txt at 0 at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.readChunk(ChecksumFil...原创 2015-09-15 14:39:34 · 286 阅读 · 0 评论 -
hive中使用transform小例子
hive中使用transform小例子代码: set mapred.cache.archives=hdfs://host:54310/app/ns/test/php.tgz#home; set HDFS_PHP=home/know/odp/php -c home/know/odp/ph...原创 2015-09-08 15:30:37 · 532 阅读 · 0 评论 -
hive 不以科学计数法输出,hive计数法输出
Hive中int , float , double这些数值类型在存储大额度数字时,在前端展现上总是使用科学计数法来表示,例如:hive> select pow(10,8) from dual;OK1.0E8其实无论是普通的表示方式还是科学计数法表示,只是一个习惯问题,结果都是一样的。可是不能理解的是当把数值类型转化成字符串类型以后Hive竟然把数值转换成了科学计数法表示的字...原创 2015-06-03 18:29:17 · 6734 阅读 · 1 评论 -
hive union
原文:http://www.cnblogs.com/ggjucheng/archive/2013/01/15/2861574.htmlUnion 语法select_statement UNION ALL select_statement UNION ALL select_statement ...UNION用于联合多个SELECT语句的结果集,合并为一个独立的结果集。当前只能...原创 2015-03-11 15:07:49 · 80 阅读 · 0 评论 -
hive中分组取前N个值的实现
背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它的作用是按指定的列...原创 2015-03-11 12:18:54 · 83 阅读 · 0 评论 -
hive基本用法
DDL Operations 创建表 hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并创建索引字段ds hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 显示所有表 hive> SHOW TABLES; 按正条件(正则表达...原创 2014-08-26 12:19:08 · 84 阅读 · 0 评论 -
hive中order by,sort by, distribute by, cluster by作用以及用法
hive中order by,sort by, distribute by, cluster by作用以及用法 1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的b...原创 2015-03-03 12:39:26 · 74 阅读 · 0 评论 -
Hive UDF整理
目录[-]Hive UDF整理字符串函数字符串长度函数:length字符串反转函数:reverse字符串连接函数:concat带分隔符字符串连接函数:concat_ws字符串截取函数:substr,substring字符串截取函数:substr,substring字符串转大写函数:upper,ucase字符串转小写函数:lower,lcase...原创 2015-02-28 19:16:46 · 98 阅读 · 0 评论 -
hive 建表异常处理字节太长
hive create table: Specified key was too long; max key length is 767 bytes 2013-12-26 14:37:04| 分类: Linux|举报|字号 订阅 把hive 的metadata配置成mysql,在mysql数据库里创建了hive db后,修改hive的conf目录下的hiv...原创 2014-03-14 14:49:35 · 594 阅读 · 0 评论 -
overwrite在hive内部表及外部表特性
overwrite在hive内部表及外部表特性。overwrite即为重写的意思, 指定了OVERWRITE,会有以下效果:•目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。 •如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。 一、内部表测试 ...原创 2014-05-19 14:14:37 · 457 阅读 · 0 评论 -
hive insert into overide 用法
1hive> insert overwrite table partition_test partition(stat_date='20110728',province='henan') select member_id,name from partition_test_input where stat_date='20110728' and province='henan'; ...原创 2014-05-13 16:23:20 · 307 阅读 · 0 评论 -
从一个经典案例看优化mapred.map.tasks的重要性
dfs.block.size=268435456hive.merge.mapredfiles=truehive.merge.mapfiles=truehive.merge.size.per.task=256000000mapred.map.tasks=2 因为合并小文件默认为true,而dfs.block.size与hive.merge.size.per.task的搭配使得合并后的绝大部分文...原创 2014-10-28 22:31:02 · 97 阅读 · 0 评论