Hive
文章平均质量分 81
wbj0110
这个作者很懒,什么都没留下…
展开
-
Hadoop分布式文件系统:架构和设计要点(转)
一、前提和设计目标1、硬件错误是常态,而非异常情况,HDFS可能是有成百上千的server组成,任何一个组件都有可能一直失效,因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标,一个存储在上面的典型文件大小一般都在...原创 2013-11-08 09:29:37 · 79 阅读 · 0 评论 -
Hive – 基于HADOOP的数据仓库
wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gztar -xzvf hive-0.11.0-bin.tar.gzcd hive-0.11.0-binsudo vi /etc/profile增加:export HIVE_HOME=/home/ysc/hive-0.1...原创 2014-03-07 09:57:50 · 177 阅读 · 0 评论 -
hive支持sql大全
#建表create table sign_in (uri string , koudaiToken string) row format delimited fields terminated by ‘|’;#如果不存在表则创建create table if not exists mytable (id bigint,name string);#创建外部表hive> ...原创 2014-08-27 12:12:41 · 198 阅读 · 0 评论 -
HIVE 处理日志,自定义inputformat 完整版
为何要设置此功能是由于 hive fields terminated by '||||' 不支持 字符串导致 将你的inputformat类打成jar包,如MyInputFormat.jar将MyInputFormat.jar放到 hive/lib里,然后就可以建表了假设你的inputFormat类路径是com.hive.myinput则建表语句为:create table tbnam...原创 2014-08-29 15:41:13 · 212 阅读 · 0 评论 -
基于hive的日志分析系统
hive 简介 hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。 它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 HQL (类 SQL )语言对这些数据进行自动化管理和处理。我们可以把 hive 中海量结构化数据看成一个个的表,而实际上这些数据是分布式存储在 HDFS 中...原创 2014-08-29 16:01:56 · 631 阅读 · 0 评论 -
hive支持sql大全
hive操作数据库还是比较方便的,因此才会有hbase与hive整合。下面我们hive的强大功能吧。为了增强阅读性,下面提几个问题:hive支持哪些运算符?hive是否支持左右连接?hive如何截取字符串?hive提供了那些系统函数?目录一、关系运算:... 41. 等值比较: =. 42. 不等值比较: <>. 43. 小于比较: <. 44. 小于...原创 2014-09-02 14:09:40 · 392 阅读 · 0 评论 -
Using Hive for Data Analysis
概述Hive is designed to enable easy data summarization and ad-hoc analysis of large volumes of data. It uses a query language called Hive-QL which is similar to SQL.In this tutorial, we will explo...原创 2014-09-02 14:34:14 · 194 阅读 · 0 评论 -
hadoop学习--基于Hive的Hadoop日志分析
本文将本地的hadoop日志,加载到Hive数据仓库中,再过滤日志中有用的日志信息转存到Mysql数据库里。环境:hive-0.12.0 + Hadoop1.2.11、日志格式 2014-04-17 22:53:30,621 INFO org.apache.hadoop.hdfs.StateChange: BLOCK* addToInvalidates: blk_4856124...原创 2014-09-02 14:34:47 · 125 阅读 · 0 评论 -
hive日志分析实战(二)
需求统计某游戏平台新用户渠道来源日志格式如下: Text代码 Jul 23 0:00:47 [info] {SPR}gjzq{SPR}20130723000047{SPR}85493108{SPR}S1{SPR}{SPR}360wan-2j-reg{SPR}58.240.209.78{SPR} 分析问题的关键在于先找出新用户新...原创 2014-09-08 14:19:56 · 873 阅读 · 0 评论 -
hive导入nginx日志
将nginx日志导入到hive中的方法1 在hive中建表 CREATE TABLE apachelog (ipaddress STRING, identd STRING, user STRING,finishtime STRING,requestline string, returncode INT, size INT,referer string,agent string) ...原创 2014-07-09 11:26:55 · 137 阅读 · 0 评论 -
HBase Thrift 接口的一些使用问题及相关注意事项
HBase对于非Java语言提供了Thrift接口支持,这里结合对HBase Thrift接口(HBase版本为0.92.1)的使用经验,总结其中遇到的一些问题及其相关注意事项。1. 字节的存放顺序HBase中,由于row(row key和column family、column qualifier、time stamp)是按照字典序进行排序的,因此,对于short、int、long等...原创 2014-02-12 10:19:50 · 136 阅读 · 0 评论 -
hadoop中的数据序列化及数据类型
序列化是干什么用的?本质上讲,就是数据保存到虚拟机之外,然后又被读到虚拟机内.如果仅仅是保存,不关心能读进jvm的话,就不关心序列化问题了.正是因为需要被读进jvm,所以必须识别写出、读入的数据格式、字符顺序等问题。因此序列化也就是比较重视的事情了。拿密码来打比方。序列化就像加密,反序列化就像解密。只加密不解密那肯定是不行的。hdfs作为分布式存储系统必然涉及到序列化问题。 h...原创 2014-02-10 15:20:24 · 355 阅读 · 0 评论 -
HBase/Hadoop学习笔记 (转)
HBase/Hadoop学习笔记 学习目标: 至少掌握五点: 1. 深入理解HTable,掌握如何结合业务涉及高性能的HTable。 2. 掌握与HBase的交互,通过HBase Shell命令及Java API进行数据的增删改查。 3. 掌握如何用MapReduce分析HBase里的数据 ...原创 2013-12-03 09:41:40 · 205 阅读 · 0 评论 -
GitHub项目Storm-HBase介绍
Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。HBaseSpout根据时间戳范围[start_timestamp, stop_timestamp],持续不间断地从HBase cluster读取流数据: 如果start_timestamp = ...原创 2013-12-06 10:17:36 · 81 阅读 · 0 评论 -
FACEBOOK架构
http://www.jdon.com/artichect/facebook.html原创 2013-12-16 10:00:44 · 96 阅读 · 0 评论 -
运行MapReduce作业做集成测试
准备工作 以windows环境为例: 安装jdk,设置环境变量JAVA_HOME为jdk安装目录 安装Cygwin,安装时注意选择安装软件包openssh - Net 类,安装完成将cygwin/bin加入环境变量path。 确认ssh。打开cygwin命令行,分别执行以下命令 安装sshd:$ ssh-host-config 启动sshd服务:$ net s...原创 2013-12-17 09:46:31 · 108 阅读 · 0 评论 -
Hive如何加载和导入HBase的数据
当我们用HBase 存储实时数据的时候, 如果要做一些数据分析方面的操作, 就比较困难了, 要写MapReduce Job。 Hive 主要是用来做数据分析的数据仓库,支持标准SQL 查询, 做数据分析很是方便,于是便很自然地想到用Hive来载入HBase的数据做分析, 但是很奇怪地是, 上网查了一下, 只看到以下两种情况:1. 如何用Hive 往HBase里面插入大量的数据。2...原创 2014-06-03 09:52:54 · 332 阅读 · 0 评论 -
Hive getstarted
https://cwiki.apache.org/confluence/display/Hive/GettingStarted原创 2014-06-11 09:05:12 · 70 阅读 · 0 评论 -
分别使用Hadoop MapReduce、hive统计手机流量
问题导读1.hive实现统计的查询语句是什么?2.生产环境中为什么建议使用外部表?3.hadoop mapreduce创建类DataWritable的作用是什么?4.为什么创建类DataWritable?5.如何实现统计手机流量?6.对比hive与mapreduce统计手机流量的区别?1.使用Hive进行手机流量统计很多公司在使用hive对数据进行处理。hive是hadoop家族成员,是一种解...原创 2014-06-15 01:09:17 · 433 阅读 · 0 评论 -
HBase入门篇(转)
1-HBase的安装HBase是什么?HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:HBase在产品中还包含了Jetty,在HBase启动时采用嵌入式的方...原创 2014-02-07 09:37:47 · 152 阅读 · 0 评论 -
hive日志分析实战(一)
分析用户玩家流失率 (流失:如果一用户登陆某游戏某区服后接下来一周时间内登陆该区服的天数少于2天,则认为该用户已流失) 日志格式如下: Text代码 {"cnt":3,"src":"bbs","time":20130622063117,"qid":"100005648","gkey":"yjjh","skey&原创 2014-09-08 14:20:40 · 177 阅读 · 0 评论