hive
sysmedia
这个作者很懒,什么都没留下…
展开
-
Spark-1.3.1与Hive整合实现查询分析
在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的MapReduce程序进行运行,这也是MapReduce计算引擎的特点带来的延迟问题:Map中间结果写转载 2017-02-20 16:57:20 · 757 阅读 · 0 评论 -
Spark SQL访问Hive,MySQL
一: 版本 搭建好的Hadoop环境,Hive环境,Spark环境。本文Hadoop版本为 Hadoop-2.6.4,Hive版本为Hive-2.0.0,Spark版本为spark-1.6.1-bin-hadoop2.6。二: 配置spark-env.sh 在 SPARK_HOME/conf/spark-env.sh 中配置以下内容:转载 2017-03-08 14:54:30 · 1261 阅读 · 0 评论 -
Spark-1.3.1与Hive整合实现查询分析
在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的MapReduce程序进行运行,这也是MapReduce计算引擎的特点带来的延迟问题:Map中间结果写转载 2017-03-08 14:51:23 · 556 阅读 · 0 评论 -
scala筛选460亿条记录的hive表
背景:接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度:解析规则譬如:1234需要解析host: api.map.baidu.com需要解析的规则:"result":{"location":{"lng"转载 2017-03-08 14:40:37 · 1869 阅读 · 0 评论 -
Hive导入数据文件时中文乱码的解决
1.不要用SecureCRT,要用putty2. 设置服务器的LANG=UTF83. 数据文件也要用UTF8原创 2017-02-23 18:05:06 · 4119 阅读 · 0 评论 -
报表组件FineReport如何连接hadoop,hive数据库
Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具。一般来说我们对Hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,这样的模式用来做一些测试比较合适,并不适合做产品的开发和应用。因此,就产生Hive的JDBC连接的方式。下面就通过报表组件FineReport向大家介绍。转载 2017-03-03 08:54:16 · 4119 阅读 · 0 评论 -
基于HIVE数据库出报表的后台相关工具介绍
1. Sqoop是让Hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,Hive之间数据导入导出的一个工具.2. SQLyogSQLyog 是业界著名的 Webyog 软件公司出品的一款简洁高效、功能强大的图形化MySQL数据库管理工具。使用SQLyog可以快速直观地让您从世界的任何角落通过网络来维护远端的MySQL数据库。3.转载 2017-03-03 08:52:02 · 541 阅读 · 0 评论 -
通过hiveserver远程服务构建hive web查询分析工具
(1)Hive 三种启动方式及用途,本文主要关注通过hiveserver(可jdbc连接)的方式启动 1, hive 命令行模式,直接输入/hive/bin/hive的执行程序,或者输入 hive --service cli 用于Linux平台命令行查询,查询语句基本跟MySQL查询语句类似 2, hive web界面的启动方式,hive --servi转载 2017-02-23 17:49:14 · 1208 阅读 · 0 评论 -
Hive on Spark解析
Hive是基于Hadoop平台的数据仓库,已经成为Hadoop事实上的SQL引擎标准。相较于Impala、Shark等,Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。这里,将走进Hive on Spark世界。转载 2017-02-20 17:12:16 · 1207 阅读 · 0 评论 -
USING HIVE WITH ORC FROM APACHE SPARK
USING HIVE WITH ORC FROM APACHE SPARKINTRODUCTIONhttp://hortonworks.com/hadoop-tutorial/using-hive-with-orc-from-apache-spark/In this tutorial, we will explore how you can acce转载 2017-02-20 17:08:40 · 833 阅读 · 0 评论 -
Hive统计新增,日活和留存率
用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下:主要字段内容dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在产品经理需要统计每天用户的新增,日活和留存率.其中留存率的概念是,如果用户在5月1日第一次使用转载 2017-03-08 14:55:47 · 3348 阅读 · 0 评论