最近在组内作了次简单的分享,题目是实时数据流的处理,切入点主要是推荐系统中多种实时数据流的实时计算问题,当然像搜索的trends, 广告的实时计费等也可能会碰到类似的问题,PPT里面简单的介绍了下线上系统实际的结构和流程,系统上线运行近半年多,虽然没有出现过问题,其中有些问题还是值得修改和改善的,如果有业务相关的需求,这些问题会一并改善。
主要处理的问题:
1. 乱序的问题,这个在多数据流实时系统比较常见,即多种数据到达系统的时间不一致,传统的window join方法不太work
2. 低延迟和可扩展性,实时数据处理要为online model和service提供服务,秒级别的延迟是必须的,为应对可能的数据增长,可扩展性也是必须的。
现有系统面临的问题:
1. 数据服务化的问题,实时计算处理的中间数据不能很好的为第三方服务所共享,需要有中间数据落地或者API基本的数据暴露接口,避免重复计算和处理
2. 数据处理效率的问题,从kafka拉取数据时消息堆积、缓存处理等
3. 缓存处理问题,包括服务容错处理和缓存失效机制的问题,容错