技术层-hive
文章平均质量分 63
小丁丁_ddxdd
这个作者很懒,什么都没留下…
展开
-
hive-导出数据的方式
1.拷贝文件 如果数据文件恰好是用户需要的格式,那么只需要拷贝文件或文件夹就可以。hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据,会报错--只能使用insert overwrite local directory来导出数据 --h转载 2016-07-04 23:08:51 · 465 阅读 · 0 评论 -
hive--join
来源:http://www.cnblogs.com/xd502djj/archive/2013/01/18/2866662.html举例子:hive> select * from zz0; 111111 222222 888888 hive> select * from zz1; 111111 333333 444444 888888转载 2017-02-23 22:55:16 · 444 阅读 · 0 评论 -
hive-导入数据的方式
来源:http://gaoxianwei.iteye.com/blog/21584691.从本地文件系统中导入数据到hive表 (1)数据准备(/home/sopdm/test.dat): 1,wyp,25,13188888888 2,test,30,13899999999 3,zs,34,89931412 (2)首先创建表use sopdm;drop转载 2016-07-06 23:18:24 · 494 阅读 · 0 评论 -
mysql ---kill process解决死锁
来源:http://ri0day.blogbus.com/logs/59186177.htmlmysql> show processlist;+----+------+-----------+------+---------+------+-------+------------------+| Id | User | Host | db | Command | Time转载 2017-02-20 22:58:01 · 1526 阅读 · 0 评论 -
hive--Hive之数据倾斜的原因和解决方法
来源:https://yq.aliyun.com/articles/60908数据倾斜在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。转载 2017-05-04 22:50:21 · 14890 阅读 · 2 评论 -
hive--基本数据计算
来源:http://blog.csdn.net/lxpbs8851/article/details/39317611标准差是方差的平方根1.方差公式:m为x1,x2...xn数列的期望值(平均数)s^2 = [(x1-m)^2 + (x2-m)^2 + ... (xn-m)^2]/ns即为标准差s^2为方差。2.实例:hive>转载 2016-09-27 13:05:12 · 3860 阅读 · 0 评论 -
更新动态分区表
建表drop table dml.sina_blog_sentiment_result;create external table dml.sina_blog_sentiment_result( news_time string comment '文章发布时间',url string comment '文章url',author string comment '文章作原创 2017-07-19 13:32:28 · 620 阅读 · 0 评论 -
hive-行转列和列转行
一、行转列的使用1、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c d 4,5,62、数据转载 2016-05-18 00:05:46 · 1232 阅读 · 0 评论 -
hive-建表、数据抽取及了解表信息
------------------st建表(无分区) create external table st.表名 ( week int comment '周', PV int comment '访问量', UV int comment '访问人数', prdt_type string comment '项目类型', updatetime timestamp转载 2016-05-17 00:12:02 · 1343 阅读 · 0 评论 -
hive字符串函数
1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;72. 字符串反转函数:reverse语法: reverse(string A)返回值:转载 2016-05-31 22:57:40 · 16664 阅读 · 0 评论 -
hive--hdfs基本操作
查看文件hdfs dfs -ls/hive/default/qh_oi_detail_part_final_samuel转载 2016-12-17 20:35:18 · 1267 阅读 · 0 评论 -
hive_CONCAT_WS合并的用法
从数据库里取N个字段,然后组合到一起用“,”分割显示,起初想到用CONCAT()来处理,好是麻烦,没想到在手册里居然有提到CONCAT_WS(),非常好用。CONCAT_WS(separator, str1, str2,...)它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL,返回值也将为 NULL。这个转载 2016-05-18 00:14:47 · 50065 阅读 · 0 评论 -
hive-数据存储各种模式
Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式,也没有为数据建立索引,只需要在创转载 2016-05-31 23:41:10 · 464 阅读 · 0 评论 -
hive-NVL、Coalesce、NVL2、NULLIF函数
1.NVL函数NVL函数的格式如下:NVL(expr1,expr2)含义是:如果oracle第一个参数为空那么显示第二个参数的值,如果第一个参数的值不为空,则显示第一个参数本来的值。例如:SQL> select ename,NVL(comm, -1) from emp; ENAME NVL(COMM,-1)------- ----SMITH -1ALLEN 30转载 2016-05-18 00:09:03 · 51189 阅读 · 0 评论 -
hive-分析函数
分析函数是什么?分析函数是Oracle专门用于解决复杂报表统计需求的功能强大的函数,它可以在数据中进行分组然后计算基于组的某种统计值,并且每一组的每一行都可以返回一个统计值。 分析函数和聚合函数的不同之处是什么?普通的聚合函数用group by分组,每个分组返回一个统计值,而分析函数采用partition by分组,并且每组每行都可以返回一个统计值。 分析函数的形式分析转载 2016-06-28 09:13:37 · 2110 阅读 · 0 评论 -
hive - Hive函数大全
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual where 1=1; 12. 不等值比较:转载 2016-08-12 23:58:28 · 4277 阅读 · 0 评论 -
hive--lag和lead 分析函数
http://blog.csdn.net/mazongqiang/article/details/7621330oracle 的分析函数是非常好的一个功能,借助它们,我们可以很方便的实现一些特殊的语句需求,省去了自己实现的诸多麻烦。今天用到了lag 和lead 这两个分析函数,稍稍整理一下。lag 和lead 可以 获取结果集中,按一定排序所排列的当前行的上下相邻若干o转载 2016-09-19 22:40:33 · 20326 阅读 · 0 评论 -
mysql--mysql简单实现查询结果添加序列号的方法
第一种方法:select (@i:=@i+1) as i,table_name.* from table_name,(select @i:=0) as it 第二种方法:set @rownum=0;select @rownum:=@rownum+1 as rownum, t.username from auth_user t limit 1,5;转载 2016-10-21 23:10:06 · 487 阅读 · 0 评论 -
hive--基于Hadoop的数据仓库Hive 学习指南
本指南介绍了Hive,并详细指引读者安装Hive。 前面第几章学习指南已经指导大家安装Linux操作系统,并安装配置了Hadoop,但是这只表明我们已经安装好了Hadoop分布式文件系统,而Hive需要另外下载安装,本指南就是详细指导大家安装并配置Hive,完成后大家可以结合厦门大学林子雨开设的《大数据技术原理与应用》课程第14章节进行深入学习。【版权声明:本指南为厦门大学林子雨开设的转载 2016-10-17 14:22:25 · 821 阅读 · 0 评论 -
hive--mysql添加删除索引
来源:http://blog.csdn.net/chenhualeguan/article/details/49679013索引是加速查询的主要手段,特别对于涉及多个表的查询更是如此。13.4.1 使用索引优化查询索引是快速定位数据的技术,首先通过一个示例来了解其含义及作用。2.索引作用在索引列上,除了上面提到的有序查找之外,数据库利用各种各转载 2016-11-24 10:04:15 · 688 阅读 · 1 评论 -
hive- 时间操作函数
日期函数UNIX时间戳转日期函数: from_unixtime语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_u转载 2016-05-24 21:50:28 · 2871 阅读 · 0 评论 -
mysql---备份数据
#!/bin/bash#owner:bi#cronTime: #inputData:WORDBANK #describe:export data from WORDBANK to host 240 #note:source /etc/profileik_dir='/opt/cms_syc_seg/useDic/ik/stopword'stoppool='/auto_cron/转载 2017-09-01 08:55:16 · 245 阅读 · 0 评论