PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。
UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。
一个UV可以用很多PV,一个PV也只能对应一个IP
没有这些数据的支持,意味着你不知道产品的发展情况,用户获取成本,UV,PV,注册转化率;没有这些数据做参考,你不会知道接下来提供什么建议给领导采纳,也推测不出领导为啥烦忧,那么就么有任何表现的机会。
举两个UV计算的场景:
1. 实时计算当天零点起,到当前时间的uv。
2. 实时计算当天每个小时的UV。0点...12点...24点
请问这个用spark streaming如何实现呢?是不是很难有好的思路呢?
今天主要是想给大家用flink来实现一下,在这方面flink确实比较优秀了。
主要技术点就在group by的使用。
下面就是完整的案例:
package org.table.uv;
import org.apache.flink.api.common.typeinfo.Types;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.TimeCharacteristic;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.funct