给用户推荐可以分成两类。
第一类:我想知道某个用户,比方说是败家娘们A的行为信息(例如败家娘们A几点几分点击什么商品,几点几分浏览过什么),从而根据这些行为推荐出商品信息。这类用户的行为信息是源源不断的,一个接一个来,比如败家娘们在7点40分32秒浏览了iPhone6plus,在7点40分35秒就看了小米4,这些信息一个个来到,越积越多,我们要求要迅速处理这些信息,没有延迟。就像在溪流的某个地方设立一个检测仪,检测水(数据)的实时情况。这就是
流处理。
第二类:根据用户的一段时间的信息推荐商品,比如我可以根据用户1年在亚马逊的消费信息,统一进行分析处理。还是用水流的例子,我可以把水流的水(数据)都集中在一个大水箱里面,然后分析水(数据)的情况。这样的分析并不是实时的。这种情况叫做 批处理。
所以总结一下,流处理是实时性小任务的处理,它对处理的延迟容忍度较低,但是容错性较高。
第二类:根据用户的一段时间的信息推荐商品,比如我可以根据用户1年在亚马逊的消费信息,统一进行分析处理。还是用水流的例子,我可以把水流的水(数据)都集中在一个大水箱里面,然后分析水(数据)的情况。这样的分析并不是实时的。这种情况叫做 批处理。
所以总结一下,流处理是实时性小任务的处理,它对处理的延迟容忍度较低,但是容错性较高。