hive
文章平均质量分 80
图特摩斯科技
数据库方向-图数仓的发明者,时序、多维、异构、动态+静态知识图谱数据库AbutionGraph发明者。
展开
-
ubuntu搭建Hadoop+spark+mysql+hive伪分布学习环境
之前使用的ubuntu14.10被我玩坏啦,等了16.04好久终于换上了,体验还不错,就是软件中心不能装软件。下面重新安装一遍Hadoop/Spark的学习环境。都选择了最新的。原创 2016-04-23 14:29:43 · 5276 阅读 · 4 评论 -
Hive最新数据操作详解(超级详细)
数据操作能力是大数据分析至关重要的能力。数据操作主要包括:更改(exchange),移动(moving),排序(sorting),转换(transforming)。Hive提供了诸多查询语句,关键字,操作和方法来进行数据操作。转载 2016-09-20 15:41:27 · 738 阅读 · 0 评论 -
Hive排序 cluster by column = distribute by column + sort by column
Hive排序 cluster by column = distribute by column + sort by column原创 2016-09-20 15:54:37 · 574 阅读 · 0 评论 -
Hive窗口和分析函数[RANK()、DENSE_RANK()、ROW_NUMBER()]
row_number()的使用方法 及原博主相关文章。Analytics functionsRANK()、DENSE_RANK()、ROW_NUMBER()使用示例:select calling_nbr,called_nbr,count, RANK() OVER (PARTITION by calling_nbr order by count desc) ra转载 2016-09-23 14:48:25 · 1630 阅读 · 0 评论 -
hive大数据倾斜总结
原因:1)、key分布不均匀 2)、业务数据本身的特性 3)、建表时考虑不周 4)、某些SQL语句本身就有数据倾斜参数调节: hive.map.aggr=true(默认开启)Map 端部分聚合,相当于Combiner hive.groupby.skewindata=true(默认false)3典型的业务场景 3.1空值产生的数据倾斜 3.2不同数据类型关联产生数据倾斜 3.3小表不小不大,怎么用 map join 解决倾斜问题转载 2016-09-20 17:40:47 · 217 阅读 · 0 评论 -
union和union all的区别
union会自动压缩多个结果集合中的重复结果,而union all则将所有的结果全部显示出来,不管是不是重复。原创 2016-09-20 18:45:35 · 387 阅读 · 0 评论 -
SQL中inner join、outer join和cross join的区别
对于SQL中inner join、outer join和cross join的区别很多人不知道,我也是别人问起,才查找资料看了下,跟自己之前的认识差不多,如果你使用join连表,缺陷的情况下是inner join,另外,开发中使用的left join和right join属于outer join,另外outer join还包括full join.下面我通过图标让大家认识它们的区别。现有两张转载 2016-09-21 17:45:45 · 342 阅读 · 0 评论 -
Caused by: MetaException(message:Hive Schema version 2.1.0 does not match metastore's schema version
问题原因:从hive1.2升级到hive-2.0.0 时没有问题。现在升级到hive-2.1.1之后,元数据就不匹配了。解决:(1)删除HDFS上的hive数据与hive数据库 hadoop fs -rm -r -f /tmp/hive hadoop fs -rm -r -f /user/hive(2)删除MySQL上的hive的元数据信息 mysql原创 2017-05-11 15:24:12 · 2591 阅读 · 0 评论 -
「Hive元数据问题」hive.metastore.HiveMetaException: Failed to get schema version.
raini@biyuzhe:~$ schematool -dbType mysql -initSchemaSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/home/raini/app/apache-hive-2.1.1-bin/lib/log4j-slf4j-impl原创 2017-05-11 22:35:50 · 25226 阅读 · 0 评论 -
WARN HiveConf: HiveConf of name hive.metastore.local does not exist
解决:这个配置很早就废除了,网上还是有很多人部署集群的时候加上这个参数。。 hive.metastore.local true-->原创 2016-08-12 19:58:52 · 4561 阅读 · 0 评论 -
SparkSQL实现查找Hive表集合中的多个元素匹配
sqlContext.sql("select app, word, priority, searchapp, searchcount, genre, type from ansearchapp LATERAL VIEW OUTER explode(searchapp) s AS app where app = %d " %g)原创 2016-08-11 19:31:29 · 4081 阅读 · 0 评论 -
Hive 正则表达式使用 与 匹配中文
1.regexp语法: A REGEXP B 描述: 功能与RLIKE相同2.regexp_extract3.regexp_replace原创 2016-09-09 10:51:28 · 22192 阅读 · 0 评论 -
HiveQL语法
1.DDL – create table ,– load data, – insert,– add partition, - select, - join, - subqueries,- UDFs,Hive优化2.Transform:FROM ( FROM src MAP expression (',' expression)* USING 'my_map_script' ( AS colName (',' colName)* )? ( clusterBy? | distribute原创 2016-05-14 10:33:38 · 622 阅读 · 0 评论 -
在spark中使用Hive报错error: not found: value sqlContext
<console>:16: error: not found: value sqlContext import sqlContext.implicits._ ^<console>:16: error: not found: value sqlContext import sqlContext.sql ^raini@biyuzhe:~$ spark-shell --jars /home/raini/spa原创 2016-05-15 19:20:10 · 14099 阅读 · 4 评论 -
【HiveETL】电商零售行业实例—推荐系统、用户细分
--========== f_orders表 ==========--/*11 2014-05-01 06:01:12.334+0110703007267488 item8:2|item1:122 2014-05-01 07:28:12.342+0110101043505096 item6:3|item3:233 2014-05-01 07:50:12.33+01101原创 2016-06-27 22:23:48 · 1731 阅读 · 0 评论 -
【HiveETL】广告行业实例—用户行为分析、归类(笔记)
array<STRING>LATERAL VIEW OUTER explode(catalogs) t AS catalog;collect_set(catalog)原创 2016-06-28 15:38:17 · 1896 阅读 · 0 评论 -
【HiveETL】互联网行业 -- APP统计分析、业绩分析
, first_value(visitor) OVER (PARTITION BY domain ORDER BY month DESC) , last_value(visitor) OVER (PARTITION BY domain ORDER BY month DESC) , lead(visitor, 1, 0) OVER (PARTITION BY domain ORDER BY month DESC) , lag(visitor, 1, 0) OVER (PARTIT原创 2016-06-28 21:53:19 · 708 阅读 · 0 评论 -
【HiveETL】物流行业 -- 订单跟踪、SLA
--========== order_created ==========--/*10703007267488 2014-05-01 06:01:12.334+0110101043505096 2014-05-01 07:28:12.342+0110103043509747 2014-05-01 07:50:12.33+0110103043501575 2014-05-01 09:27:原创 2016-06-28 21:58:42 · 1336 阅读 · 0 评论 -
Hive知识点笔记-影印版
原创 2016-06-30 17:27:22 · 423 阅读 · 0 评论 -
hive的查询注意事项以及优化总结
hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段sele转载 2016-08-02 17:42:14 · 4406 阅读 · 5 评论 -
Hive/sparkSQL ( NOT IN ) 语句优化 ---- bigger than spark.driver.maxResultSize (1.0 GB)
之前设置的6g,还是不够,报错如下:[Stage 5:===========================> (47 + 50) / 97]17/11/22 15:46:01 ERROR scheduler.TaskSetManager: Total size of serialized results of 52 tasks (原创 2017-11-22 16:04:24 · 3448 阅读 · 0 评论