HUE中通过SQL进行数据分析

1. 下载数据:

http://www.bayareabikeshare.com/datachallenge

2. 登陆HUE

File Browser 上传文件: 201408_station_data.csv    201408_trip_data.csv

Data Browser/Metastore Tables,选择数据库 default,  执行action: Create a new table from a file。输入表名、文件路径名,持续Next,最后点击 Create Table。

Query Editors/Hive,  单机刷新按钮,点击Settings/FILE RESOURCES,需要设置解析CSV文件的serde Jar包。

登陆网站: https://github.com/ogrodnek/csv-serde 下载文件csv-serde-1.1.2-0.11.0-all.jar

返回File Browser 上传文件:csv-serde-1.1.2-0.11.0-all.jar

再次执行Query Editors/Hive,  单机刷新按钮,点击Settings/FILE RESOURCES,将刚刚下载的Jar包引入进来,并执行SQL:

alter table station set serde 'com.bizo.hive.serde.csv.CSVSerde';

或者 alter table trip set serde 'com.bizo.hive.serde.csv.CSVSerde';

3. 进行交互式查询进行数据分析

执行SQL:

SELECT startterminal, startstation, COUNT(1) AS count FROM bikeshare.trips GROUP BY startterminal, startstation ORDER BY count DESC LIMIT 10

找出路线最多的前10名的站点,点击Chart按钮,设置bar graph。

4. 执行Long查询

找到站点ID=70的总路线和平均运行时间:

SELECT
    hour,
    COUNT(1) AS trips,
    ROUND(AVG(duration) / 60) AS avg_duration
FROM (
    SELECT
        CAST(SPLIT(SPLIT(t.startdate, ' ')[1], ':')[0] AS INT) AS hour,
        t.duration AS duration
    FROM `bikeshare`.`trips` t
    WHERE
        t.startterminal = 70
        AND
        t.duration IS NOT NULL
    ) r
GROUP BY hour
ORDER BY hour ASC;

设置scatterplot graph。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值