E-MapReduce ClickHouse新手入门——阿里云实验室 实验笔记

一、登录集群

1.登录阿里RAM,进入阿里云控制台首页

2.搜索eml(开源大数据平台E-MapReduce)进入E-MapReduce控制台页面。

2.在E-MapReduce控制台页面上方,选择资源所在地域。

3.获取Master的节点的公网IP地址。

3.1 单击上方的欢迎使用EMR新版控制台。

3.2 在E-MapReduce控制台概览页面的我的集群区域,单击您的集群名称。

3.3 单击节点管理页签。

3.4 在MASTER节点组下,复制emr-header-1的节点的公网IP地址。

4.双击打开虚拟桌面的LX终端。

5.在终端中输入连接命令ssh root@[Master节点的IP地址]。ssh root@114.55.93.228

 6.同意继续后将会提示输入登录密码,密码为@Aliyun2021。

 二、获取数据

执行以下命令,下载官方样例数据集。

curl https://datasets.clickhouse.com/hits/tsv/hits_v1.tsv.xz | unxz --threads=`nproc` > hits_v1.tsv

 三、创建数据库

1.执行以下命令,启动ClickHouse客户端。

clickhouse-client -m

  

 2.执行以下命令,创建数据库。

本示例使用on ClUSTER参数在集群的所有节点创建数据库, 默认集群标识为cluster_emr。

CREATE DATABASE IF NOT EXISTS demo on CLUSTER cluster_emr;

返回信息如下所示。

四、创建表

1.执行以下命令,在集群所有节点上会创建一张复制表(Replicated表)。

复制表(Replicated表)会根据副本的个数,实现数据的多副本,并实现数据的最终一致性。

CREATE TABLE demo.hits_local ON CLUSTER cluster_emr
(
    `WatchID` UInt64,
    `JavaEnable` UInt8,
    `Title` String,
    `GoodEvent` Int16,
    `EventTime` DateTime,
    `EventDate` Date,
    `CounterID` UInt32,
    `ClientIP` UInt32,
    `ClientIP6` FixedString(16),
    `RegionID` UInt32,
    `UserID` UInt64,
    `CounterClass` Int8,
    `OS` UInt8,
    `UserAgent` UInt8,
    `URL` String,
    `Referer` String,
    `URLDomain` String,
    `RefererDomain` String,
    `Refresh` UInt8,
    `IsRobot` UInt8,
    `RefererCategories` Array(UInt16),
    `URLCategories` Array(UInt16),
    `URLRegions` Array(UInt32),
    `RefererRegions` Array(UInt32),
    `ResolutionWidth` UInt16,
    `ResolutionHeight` UInt16,
    `ResolutionDepth` UInt8,
    `FlashMajor` UInt8,
    `FlashMinor` UInt8,
    `FlashMinor2` String,
    `NetMajor` UInt8,
    `NetMinor` UInt8,
    `UserAgentMajor` UInt16,
    `UserAgentMinor` FixedString(2),
    `CookieEnable` UInt8,
    `JavascriptEnable` UInt8,
    `IsMobile` UInt8,
    `MobilePhone` UInt8,
    `MobilePhoneModel` String,
    `Params` String,
    `IPNetworkID` UInt32,
    `TraficSourceID` Int8,
    `SearchEngineID` UInt16,
    `SearchPhrase` String,
    `AdvEngineID` UInt8,
    `IsArtifical` UInt8,
    `WindowClientWidth` UInt16,
    `WindowClientHeight` UInt16,
    `ClientTimeZone` Int16,
    `ClientEventTime` DateTime,
    `SilverlightVersion1` UInt8,
    `SilverlightVersion2` UInt8,
    `SilverlightVersion3` UInt32,
    `SilverlightVersion4` UInt16,
    `PageCharset` String,
    `CodeVersion` UInt32,
    `IsLink` UInt8,
    `IsDownload` UInt8,
    `IsNotBounce` UInt8,
    `FUniqID` UInt64,
    `HID` UInt32,
    `IsOldCounter` UInt8,
    `IsEvent` UInt8,
    `IsParameter` UInt8,
    `DontCountHits` UInt8,
    `WithHash` UInt8,
    `HitColor` FixedString(1),
    `UTCEventTime` DateTime,
    `Age` UInt8,
    `Sex` UInt8,
    `Income` UInt8,
    `Interests` UInt16,
    `Robotness` UInt8,
    `GeneralInterests` Array(UInt16),
    `RemoteIP` UInt32,
    `RemoteIP6` FixedString(16),
    `WindowName` Int32,
    `OpenerName` Int32,
    `HistoryLength` Int16,
    `BrowserLanguage` FixedString(2),
    `BrowserCountry` FixedString(2),
    `SocialNetwork` String,
    `SocialAction` String,
    `HTTPError` UInt16,
    `SendTiming` Int32,
    `DNSTiming` Int32,
    `ConnectTiming` Int32,
    `ResponseStartTiming` Int32,
    `ResponseEndTiming` Int32,
    `FetchTiming` Int32,
    `RedirectTiming` Int32,
    `DOMInteractiveTiming` Int32,
    `DOMContentLoadedTiming` Int32,
    `DOMCompleteTiming` Int32,
    `LoadEventStartTiming` Int32,
    `LoadEventEndTiming` Int32,
    `NSToDOMContentLoadedTiming` Int32,
    `FirstPaintTiming` Int32,
    `RedirectCount` Int8,
    `SocialSourceNetworkID` UInt8,
    `SocialSourcePage` String,
    `ParamPrice` Int64,
    `ParamOrderID` String,
    `ParamCurrency` FixedString(3),
    `ParamCurrencyID` UInt16,
    `GoalsReached` Array(UInt32),
    `OpenstatServiceName` String,
    `OpenstatCampaignID` String,
    `OpenstatAdID` String,
    `OpenstatSourceID` String,
    `UTMSource` String,
    `UTMMedium` String,
    `UTMCampaign` String,
    `UTMContent` String,
    `UTMTerm` String,
    `FromTag` String,
    `HasGCLID` UInt8,
    `RefererHash` UInt64,
    `URLHash` UInt64,
    `CLID` UInt32,
    `YCLID` UInt64,
    `ShareService` String,
    `ShareURL` String,
    `ShareTitle` String,
    `ParsedParams` Nested(Key1 String,Key2 String,Key3 String,Key4 String,Key5 String,ValueDouble Float64),
    `IslandID` FixedString(16),
    `RequestNum` UInt32,
    `RequestTry` UInt8
)
ENGINE = ReplicatedMergeTree('/clickhouse/tables/{shard}/{database}/hits_local', '{replica}')
PARTITION BY toYYYYMM(EventDate)
ORDER BY (CounterID, EventDate, intHash32(UserID))
SAMPLE BY intHash32(UserID);

 说明:{shard}和{replica}是阿里云EMR为ClickHouse集群自动生成的宏定义,可以直接使用。

2.执行以下命令,创建分布式(Distributed)表。分布式表不存储数据,仅仅是底层表的一个View,但可以在多个服务器上进行分布式查询。本例中使用随机函数rand(),表示数据会随机写入各个节点的本地表。

CREATE TABLE demo.hits_all on CLUSTER cluster_emr AS demo.hits_local 
ENGINE = Distributed(cluster_emr, demo, hits_local, rand());

3.按下键盘的ctrl+z组合键退出ClickHouse客户端。

五、导入数据并查看

1.在样例数据的目录下执行以下命令,导入数据。

clickhouse-client --query "INSERT INTO demo.hits_all FORMAT TSV" --max_insert_block_size=100000 < hits_v1.tsv;

2.执行以下命令,启动ClickHouse客户端。

clickhouse-client -m

 3.查看数据。

因为数据是随机写入的,各节点数据量可能不同。

  • 执行以下命令,查看emr-header-1节点demo.hits_all的数据量。

select count(*) from demo.hits_all;
  • 执行以下命令,查看emr-header-1节点demo.hits_local的数据量。

select count(*) from demo.hits_local;

 说明:按下键盘的ctrl+z组合键退出ClickHouse客户端。

3.1 执行以下命令,在Master节点切换到hadoop账号。

su hadoop

3.2 执行以下命令,切换到emr-worker-1节点。

ssh emr-worker-1;

3.3 执行以下命令,启动ClickHouse客户端。

clickhouse-client -m

3.4 在ClickHouse客户端,执行以下命令,查看demo.hits_local的数据量。

select count(*) from demo.hits_local;
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值