分享一个大神的人工智能教程。零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到人工智能的队伍中来!
点击浏览教程
实时统计pv、uv是再常见不过的大数据统计需求了,前面出过一篇SparkStreaming实时统计pv,uv的案例,这里用flink实时计算pv,uv。
我们需要统计不同数据类型每天的pv,uv情况,并且有如下要求.
- 每秒钟要输出最新的统计结果
- 程序永远跑着不会停,所以要定期清理内存里的过时数据
- 收到的消息里的时间字段并不是按照顺序严格递增的,所以要有一定的容错机制
- 访问uv并不一定每秒钟都会变化,重复输出对IO是巨大的浪费,所以要在uv变更时在一秒内输出结果,未变更时不输出
flink数据流上的类型和操作
DataStream是flink流处理最核心的数据结构,其它的各种流都可以直接或者间接通过DataStream来完成相互转换,一些常用的流直接的转换关系如图: