本文简要概括Cloudera的用户体验指南中各章节内容:
1. 安装
两种方式体验Cloudera产品
+ 在线体验(Cloudera Live)
+ 本地虚拟机安装(QuickStart VM)
2. 场景一:导入并查询关系数据
通过sqoop命令把存在于mysql数据库中的数据在内部以mapreduce任务的方式导入到HDFS中,文件格式为Apache Parquet(为hadoop中的分析型应用设计的数据格式),随后创建Impala/Apache Hive表。
登录Hue可以在浏览器中通过Impala对数据进行检索,Impala中可以用标准SQL语句,和在关系数据库中没有区别。
3. 场景二:批量导入文件数据
通过”CREATE EXTERNAL TABLE”导入网站访问日志数据到HIVE中,然后在Impala中用SQL进行产品的访问排行。
4. 场景三:分析日志数据
- 利用Apache solr建立日志索引配置文件
- 利用Apache Flume整合日志文件以及Morphline中定义的日志文件转换规则
- 在Hue中高效查询日志数据