用beeline连接SparkSQL

1. 在$SPARK_HOME/conf/hive-site.xml文件中添加下面的属性 vi $SPARK_HOME/conf/hive-site.xml               hive.metastore.uris         thrift://master:9083         Thrift URI for the remote metastore. Used b...
阅读(4010) 评论(0)

使用hive查询把访问网络流量会话化

《Hive编程指南》最后一章的Outbrain案例中,有一个把访问网络流量会话化的简单实现,但按照它的查询出来的结果是错的,于是自己重写了一个。 一、问题提出(摘自书中原文)         为了分析网络流量,我们常常希望能够基于各种各样的标准来测量热度。一种方法就是将用户行为分解到会话中,一次会话代表单一的一次“使用”所包含的一系列操作。一个用户在一天内或者一个月中的某几天可以多次访问某...
阅读(1629) 评论(0)

Spark 安装配置实验

安装前准备 hadoop 2.7.2 安装配置,参考 http://blog.csdn.net/wzy0623/article/details/50681554 安装spark 1. 下载spark安装包,地址:http://spark.apache.org/downloads.html 下载页面如图1所示 图1 2. 解压缩 tar -zxvf spark-1.6.0...
阅读(1443) 评论(0)

利用sqoop将hive和mysql数据互导简单实验

1. Hadoop、Hive、MySQL安装(略) 2. 下载sqoop http://www.apache.org/dyn/closer.lua/sqoop/1.4.6 3. 解压 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 4. 建立软连接 ln -s sqoop-1.4.6.bin__hadoop-2.0....
阅读(2230) 评论(0)

kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)

1. 配置HiveServer2,在hive-site.xml中添加如下的属性     hive.server2.thrift.bind.host     192.168.56.101     Bind host on which to run the HiveServer2 Thrift service.     hive.server2.thrift.port     1...
阅读(3964) 评论(2)

hive动态分区插入实验

实验目的 1. 验证对分区表进行动态分区插入功能 2. 验证是否可以使用load进行动态分区插入 实验步骤 1. 在本地文件/home/grid/a.txt中写入以下4行数据: aaa,US,CA aaa,US,CB bbb,CA,BB bbb,CA,BC 2. 建立非分区表并加载数据 CREATE TABLE t1 (name STRING, cty STRING, ...
阅读(1780) 评论(0)

hive 表数据加载、表删除试验

1. 非分区表 (1)load 加载数据 本地文本文件a.txt中有一行'aaa',执行下面的命令。 CREATE TABLE t1 (name STRING); LOAD DATA LOCAL INPATH '/home/grid/a.txt' INTO TABLE t1; SELECT * FROM t1; dfs -ls /user/hive/warehouse/test.db/t1;...
阅读(2149) 评论(0)
    个人资料
    • 访问:1297431次
    • 积分:17326
    • 等级:
    • 排名:第553名
    • 原创:253篇
    • 转载:20篇
    • 译文:5篇
    • 评论:155条
    博客专栏
    文章分类
    最新评论