干货 | 因果推断在项目价值评估中的应用

本文探讨了因果推断在无法进行随机实验的项目价值评估中的应用,特别是利用倾向分匹配(PSM)方法来控制混杂因素。通过PSM,可以模拟随机试验,评估活动/项目带来的价值增量,例如在携程与外部平台的合作项目中,通过匹配和控制混杂因素,计算出项目对老用户带来的间接价值。
摘要由CSDN通过智能技术生成

作者简介

野生梨,携程算法工程师,关注因果推断在实际工业项目上的探索和应用。

一、背景介绍

我们的日常生活中充斥着各种需要推断原因和结果的问题,比如,吸烟是否会导致肺癌,大学教育是否能够提高收入水平?有时,当我们试图回答这些问题的时候,会陷入相关的陷阱,即认为相关等于因果。

比如,伦敦曾经有一个调查机构基于数据发现,在很长一段时间内,发生车祸的数量和司机穿的衣服重量之间呈现正向且显著的相关性,所以他们得出结论,认为厚重的衣服会影响司机的行动能力,从而更可能导致车祸的发生。

基于此结论,调查机构的研究人员建议政府部门应该立法规定——司机在开车时不得穿厚重的衣服。但是实际情况果真如此吗?


其实,这就是个典型的伪相关结论。因为后续的调查研究发现,司机穿厚重的衣服往往是因为下雨,而下雨的时候路况变差能见度较低,而大多数司机并不在下雨天减速,这才是导致大部分车祸发生的原因之一。得到这种伪相关结论,往往是因为我们在分析的过程中忽略了类似下雨这样的混杂变量(如图1-1所示),从而认为观察到的两个结果变量(司机衣服的重量和车祸数量)之间,有着某种可能不存在的因果关系。

29c4ee451617c2c886229020302486b7.png

图1-1  伦敦出租车司机穿衣和车祸问题的因果结构

正如上面所说,由于混杂因素的存在,会导致我们分析数据出具结论的时候产生偏差。那么,是否有一种方法可以帮助我们回答这样的因果问题呢?答案是肯定的,那就是因果推断。

因果推断是专门研究此类因果关系的科学,即寻找变量之间的因果关系,并且预估由于因对果造成效应大小。互联网公司中每天都在进行的随机实验(AB实验)就是因果推断中的黄金准则,即将研究对象随机分组,对不同组实施不同的干预/处理,然后观察结果的变动,从而验证干预/处理是否是造成结果变动的原因,进而得到干预/处理造成结果变动的程度。

但是需要承认的是,在大多数情况下我们由于某些原因(比如成本限制或者道德风险)或者项目本身性质而无法实行严格的随机试验。比如,携程市场部为了促进用户在暑期的旅游消费,上线了一个营销活动, 在这个场景下我们想要知道这个营销活动是否有效(是否能带来收益增量),以及能带来多少的价值增量,随机实验就显得无计可施。因为我们并不能在做活动期间通过随机分流的形式,控制某个版本的用户参加活动,而另一个版本的用户不参加活动,这首先对于用户来说是具有价格歧视(假设活动会有优惠)的,当然对于公司来说也会潜在损失很大一笔收益(假设活动有效的情况下)。

那么,没有了黄金法则,我们还能做什么来得到项目价值增量呢? 仔细思考不难发现,用户是否参与活动以及最终是否下单,可能同时受其它混杂因素影响(如图1-2所示),比如具有短期休闲旅游出行意图的用户更可能会参加活动并下单,而短期商旅用户很可能并不会参加活动但是依旧会下单,同样的混杂因素还有很多,比如消费能力和长期旅游出行习惯。怎么把这些混杂因素都去除或者控制起来,从而准确评估活动对于用户下单的价值,便是此类分析任务的难点和挑战。

7130aafc40f86774b27e0c53363b5415.png

图1-2  活动/项目评估问题因果结构

在因果推断领域中,存在很多方法可以帮助我们解决上述分析中的难点和挑战。这些方法大致可以分为两类:

(1)完全消除混杂因素的

### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散化流处理模型(DPM),将长周期的数据流划分为离散化的小批量,每个批次的数据被存储在 RDD 进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散化处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散化处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和读取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优化器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值