第一步:读取数据
分析数据的第一步即是读取数据
读取的数据一般是经理过ETL的数据
我们可以直接对读取到的数据进行分析
如果是读取HBase表中的数据时
一般将表名设置为输入参数
这样就可以分析不同时段的相同类型的数据
第二步:数据过滤
在这一步,通常对读取到的数据进行过滤或取样操作
有两种方法
方法1:使用RDD高阶函数对读取到的数据进行过滤或格式化
该方法主要使用的是RDD集合的高阶函数,如map,filter等方法,对数据过滤或者格式化
方法2:使用Scan对象设置读取的数据,Filter进行数据过滤
该方法主要是使用HBase中的scan方法
通过这个方法,可以读取到指定的HBase中的字段
设置要查询列簇和列
scan中也可以设置过滤器
对不需要的字段进行过滤
设置好scan后
读取出来的RDD数据集合便是经过过滤的数据
第三步:数据转换
这一步,主要是将第二步中RDD的数据进行转换
因为从HBase中读取到的数据都是二进制格式的
需要进行转换,否则看不到数据
数据转换后,将截取到的数据以多元组的格式返回
第四步:数据截取
在这一步,要为下一步的数据分析做准备
在分析某些指标时,需要的字段可能不是很多
我们可以将第三步经过转换的数据中的某些字段提取出来
避免分析数据字段过于复杂
第五步:数据分析
数据分析就要看具体的业务需求了
常见分析的维度有时间维度、地域维度
最常见的就是分析网站的pv,uv,dv
还有分析每日top10排行
访客来源,用户活跃度,留存率等等
第六步:结果保存
分析后的结果可以保存起来
此时分析的结果是有一定的价值的
在某些时候甚至是商业机密
结果可以存放到关系型数据库或者非关系型数据库
一般是都存一份
第七步:结果展示
我们可以将分析过后的数据通过以下前端的框架、web项目还有某些工具展示出来
更直观的看到分析的结果
常用Highcharts、Echarts等前端框架
也可以自己开发web项目展示数据