深圳地铁客流大数据 Spark 技术栈

通过分析深圳市开放的轨道交通客流数据,本项目利用Spark技术栈揭示深漂族的上下班出行规律,旨在实战中应用大数据和机器学习方法。
摘要由CSDN通过智能技术生成

写在前面

学以致用,本项目通过对深圳市开放数据之轨道交通客流情况进行分析,了解深漂的我们每天在上下班都经历了些什么…

本系列项目以Spark技术栈为主,

花絮

SHOW DATABASES;

CREATE DATABASE IF NOT EXISTS szdw_ods;
CREATE DATABASE IF NOT EXISTS szdw_dwd;
CREATE DATABASE IF NOT EXISTS szdw_dws;
CREATE DATABASE IF NOT EXISTS szdw_ads;

USE szdw_ods;

SHOW TABLES;

--1 ODS 原始表, 不做改动, 直接加载
//OGT-101  |FFHEDIBCC|2018-09-01 00:00:00|地铁五号线  |0        |2018-08-31 23:11:06|665       |地铁出站 |700       |263031101|长龙   |
DROP TABLE IF EXISTS szdw_ods.subway_swipe_record_20180901;
CREATE EXTERNAL TABLE szdw_ods.subway_swipe_record_20180901(
car_no String COMMENT '车',
card_no String COMMENT '卡号',
close_date String COMMENT '结算时间',
company_name String COMMENT '线名',
conn_mark String COMMENT '联程标记',
deal_date String COMMENT '进站时间',
deal_money String COMMENT '应该收入',
deal_type String COMMENT '出行类型',
deal_value String COMMENT '实际收入',
equ_no String COMMENT '闸机号',
station String COMMENT '站名'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

LOAD DATA local INPATH '/Users/liuge36/IdeaProjects/liuge-flink/data/csv/part-00000-0116a51f-7a9c-4916-b2cd-546edce131f5-c000.csv'
OVERWRITE INTO TABLE szdw_ods.subway_swipe_record_20180901;

SELECT * FROM szdw_ods.subway_swipe_record_20180901 LIMIT 10;

SELECT collect_set(deal_type) FROM szdw_ods.subway_swipe_record_20180901
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值