CDH学习记录

本文简要概括Cloudera的用户体验指南中各章节内容:

1. 安装

两种方式体验Cloudera产品
+ 在线体验(Cloudera Live)
+ 本地虚拟机安装(QuickStart VM)

2. 场景一:导入并查询关系数据

通过sqoop命令把存在于mysql数据库中的数据在内部以mapreduce任务的方式导入到HDFS中,文件格式为Apache Parquet(为hadoop中的分析型应用设计的数据格式),随后创建Impala/Apache Hive表。
登录Hue可以在浏览器中通过Impala对数据进行检索,Impala中可以用标准SQL语句,和在关系数据库中没有区别。

3. 场景二:批量导入文件数据

通过”CREATE EXTERNAL TABLE”导入网站访问日志数据到HIVE中,然后在Impala中用SQL进行产品的访问排行。

4. 场景三:分析日志数据
  1. 利用Apache solr建立日志索引配置文件
  2. 利用Apache Flume整合日志文件以及Morphline中定义的日志文件转换规则
  3. 在Hue中高效查询日志数据
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值