仓库位置
日志生成:https://github.com/SmallScorpion/gmall-mock.git
日志服务器:https://github.com/SmallScorpion/gmall-spark-ch-es-realtime.git
分析
- 做日活,取启动日志“GMALL_SPARK_CK_ES_START”中的数据(事件日志也可以做,但是会麻烦一点)
- 消费kafka中的数据。
- 利用redis过滤当日已经计入的日活设备
- 把每批次新增的当日日活信息保存到ES中(也可以做一层聚合数据量变小之后保存到redis或者MDB中)
- 从ES中查询出数据,发布成数据接口,通可视化化工程调用。
提前建立索引模板
PUT _template/gmall_ch_dau_info_template
{
"index_patterns": ["gmall_ch_dau_info*"],
"settings": {
"number_of_shards": 3
},
"aliases" : {
"{
index}-query": {
},
"gmall_ch_dau_info-query":{
}
},
"mappings": {
"_doc":{
"properties":{
"mid":{
"type":"keyword"
},
"uid":{
"type":"