使用Spark分析HBase中存放的数据的步骤总结

第一步:读取数据

分析数据的第一步即是读取数据
读取的数据一般是经理过ETL的数据
我们可以直接对读取到的数据进行分析
如果是读取HBase表中的数据时
一般将表名设置为输入参数
这样就可以分析不同时段的相同类型的数据

第二步:数据过滤

在这一步,通常对读取到的数据进行过滤或取样操作
有两种方法

方法1:使用RDD高阶函数对读取到的数据进行过滤或格式化

该方法主要使用的是RDD集合的高阶函数,如map,filter等方法,对数据过滤或者格式化

方法2:使用Scan对象设置读取的数据,Filter进行数据过滤

该方法主要是使用HBase中的scan方法
通过这个方法,可以读取到指定的HBase中的字段
设置要查询列簇和列
scan中也可以设置过滤器
对不需要的字段进行过滤
设置好scan后
读取出来的RDD数据集合便是经过过滤的数据

第三步:数据转换

这一步,主要是将第二步中RDD的数据进行转换
因为从HBase中读取到的数据都是二进制格式的
需要进行转换,否则看不到数据
数据转换后,将截取到的数据以多元组的格式返回

第四步:数据截取

在这一步,要为下一步的数据分析做准备
在分析某些指标时,需要的字段可能不是很多
我们可以将第三步经过转换的数据中的某些字段提取出来
避免分析数据字段过于复杂

第五步:数据分析

数据分析就要看具体的业务需求了
常见分析的维度有时间维度、地域维度
最常见的就是分析网站的pv,uv,dv
还有分析每日top10排行
访客来源,用户活跃度,留存率等等

第六步:结果保存

分析后的结果可以保存起来
此时分析的结果是有一定的价值的
在某些时候甚至是商业机密
结果可以存放到关系型数据库或者非关系型数据库
一般是都存一份

第七步:结果展示

我们可以将分析过后的数据通过以下前端的框架、web项目还有某些工具展示出来
更直观的看到分析的结果
常用Highcharts、Echarts等前端框架
也可以自己开发web项目展示数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

无名一小卒

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值