因果推断----悖论

最新推荐文章于 2025-05-05 13:07:46 发布

Grin*

最新推荐文章于 2025-05-05 13:07:46 发布

阅读量383

点赞数

分类专栏：因果推断文章标签：人工智能

本文链接：https://blog.csdn.net/gpx33333/article/details/113618451

版权

因果推断专栏收录该内容

6 篇文章

订阅专栏

悖论

任何声称能够解决悖论（特别是那些经过几十年仍未得到解决的悖论）的方法都应该符合一些基本标准。

第一，它应该能够解释为什么悖论会令人困惑或让人拒绝相信。

第二，它应该能够确定悖论可能出现的场景类别。

第三，它应该能够告诉我们，在哪些情况下悖论不可能发生（如果确实存在这种情况的话）。

第四，当悖论真的发生，而我们必须在两个看似合理但矛盾的陈述中做出选择时，它应该能够告诉我们哪个说法是正确的。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Grin*

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【因果推断与机器学习】带入坑——之辛普森悖论

wxl173的博客

10-13

905

辛普森悖论

因果推断, 因果效应概述

yichudu

07-05

5177

概述 因果推断定义: 从观测数据中找出变量间的因果性以及变量改变后, 它对结果的具体影响. 从观测数据中找相关性并不难, 现在的机器学习也是在基于统计地从样本中学习 y^=f(x;θ)\hat y=f(\mathbf x;\theta)y^=f(x;θ) 的拟合关系. 但没有因果推断, 对于生活,工作的指导意义就大大减弱. 所以我们需要因果推断. 随机对照实验, Randomized Controlled Trial (RCT), 是理论上完成因果推断的最佳方法, 但考虑实际, 有些实验是 expe

参与评论您还未登录，请先登录后发表或查看评论

因果推断（三）——结构因果模型、干预、辛普森悖论

夏未眠秋风起的博客

09-10

7174

主要内容结构因果模型干预辛普森悖论调整公式结构因果模型（Structural Causal Model, SCM）定义：结构因果模型被定义为一个有序三元组<U,V,f>，U为外生变量，即有模型外部因素决定，外生变量不能是其他变量的后代；V为内生变量，即由模型内部因素决定，内生变量至少是一个外生变量的后代；f为一组方程，通过f可以用外生变量推导出内生变量的值 SCM包含图结构和变量，简单的例子如下：以因果推断（二）中的诺贝尔奖和巧克力的事

因果推断-注意事项

乱七八糟的笔记

03-22

310

混淆变量，我认为，辛普森悖论有可能被未观察到的混淆变量触发，所以在做模型的时候把这个因子考虑进去，或者控制其为常数。内生性问题，这个一般的解决方式是找个无关变量。

因果推断 - 干预

lch的博客

04-19

6537

目录基础知识干预前门准则、后门准则后门调整逆概率加权前门调整版权：转载前请联系作者获得授权。声明：部分内容出自因果关系之梯，已获得原作者授权。参考书籍：《The Book of Why》——Judea Pearl 基础知识干预定义：将因果图中结点XXX的值修改为xxx，记为do(X=x)do(X=x)do(X=x)，可以简写为do(x)do(x)do(x)。性质：在对结点X进行干预时，会删除因果图中指向X的边。与“以变量为条件”的区别：表现形式：P(Y=y∣X=x)P(Y=y | X=x

因果推断-解决推荐系统公平性的新思路

猎户座的博客

10-09

2199

因果推断综述-基础知识2

海边凝望的博客

05-06

2220

这一节是文章中第二部分基础知识。这一节公式较多，会影响阅读时效。 2.3假设为了估计治疗效果，在因果推断文献中通常使用以下假设。假设2.1稳定的unit治疗价值假设（SUTVA）任何unit的潜在结果都不会随分配给其他unit的治疗方法而变化，并且对于每个unit，每种治疗水平都没有不同的形式或版本，从而导致不同的潜在结果。该假设强调两点：第一点是每个unit的独立性，即unit之间没有交互作用。在上面的示例中，一个患者的结果不会影响其他患者的...

因果推断【Causal Inference】（一）

薛定谔的猫的博客

04-07

734

所谓因果推断，就是寻找变量间的因果关系，并估计由于因对果造成的效应大小。它之所以重要，是因为因果关系一旦被准确衡量，那么只要控制了原因，我们就能得到想要的结果。

辛普森悖论，因果推断.zip

12-18

这个悖论对于理解统计数据的解释和分析具有重要意义，尤其是在因果推断中。在统计分析中，我们常常会遇到不同群体之间的比较，比如男性和女性的平均收入、不同地区的产品销售等。辛普森悖论指出，在这种情况下，...

可观测统计数据上因果推断-----倾向得分

zhaosendong的专栏

10-24

3461

接上文《统计数据上的因果推断--关于Yule-Simpson Paradox》中的第一个例子。在很多情况下推测一个因素是否是某种结果的原因时是无法让受测试的对象在完成TA测试之后能回到初始状态，接着进行TB测试，然后根据测试的结果判断该因素是否在混淆变量的各个方向上都是结果的原因。拿药物测试的例子来说，无法让进行过药物测试的人能够回到没吃药物之前的状态再进行安慰剂的测试。如果可以那对于规避Yu

因果推断----do演算

gpx33333的博客

02-08

2215

do演算 ”合法“的do表达式变换：规则1：如果我们观察到变量W与Y无关（其前提可能是以其他变量Z为条件），那么Y的概率分布就不会随W而改变。即 P(Y∣do(X),Z,W)=P(Y∣do(X),Z) P(Y|do(X), Z, W) = P(Y|do(X), Z) P(Y∣do(X),Z,W)=P(Y∣do(X),Z) 上述等式成立的条件是，在我们删除了指向X的所有箭头后，变量集Z会阻断所有从W到Y的路径。在“火灾→烟雾→警报”的例子中，W=火灾，Z=烟雾，Y=警报，Z阻断了所有从W到Y的路径（此

因果推断----因果关系之梯

gpx33333的博客

01-22

1404

因果关系之梯关联（第一层级）：通过观察寻找规律。如果观察到某一事件改变了观察到另一事件的可能性，我们便说这一事件与另一事件相关联。基于被动观察做出预测。典型问题是“如果我观察到…会怎样？” 当今的人工智能仍处于第一层级，强人工智能的目标是制造出拥有人类智能的机器，让它们能与人类交流并指导人类的探索方向。而深度学习只是让机器具备了高超的能力，而非智能。这种差异是巨大的，原因就在于后者缺少现实模型。例如，如果无人驾驶汽车的程序设计者想让汽车在新情况下做出不同的反应，那么他就必须明确地在程序中添加这些新反

因果推断----中介公式

gpx33333的博客

02-14

1064

中介公式假如变量之间没有混杂，M是处理X和结果Y之间的中介物，则自然间接效应为： NIE=∑m[P(M=m∣X=1)−P(M=m∣X=0)]×P(Y=1∣X=0,M=m) \text{NIE} = \sum_m[P(M=m|X=1) - P(M=m|X=0)] \times P(Y=1|X=0, M=m) NIE=m∑[P(M=m∣X=1)−P(M=m∣X=0)]×P(Y=1∣X=0,M=m) 中括号内的表达式代表X对M的影响，乘号后的表达式代表M对Y的影响（当X=0时）。 ...

因果推断----必要因和充分因

gpx33333的博客

02-10

1050

必要因（或“若非因”）和充分因必要因：已知张三堵住消防通道（X=1），并且李四死了（Y=1），假如X为0，那么李四还活着（Y=0）的概率是多少？必要性概率PNPNPN为P(YX=0=0∣X=1,Y=1)P(Y_{X=0}=0|X=1, Y=1)P(YX=0=0∣X=1,Y=1) 充分因：被告向受害者开了一枪，但没有击中。在受害者逃离现场的过程中，他碰巧被一架坠落的钢琴砸死了。如果X=0X=0X=0且Y=0Y=0Y=0，即被告没有向受害者开枪，且受害者没有跑到钢琴下。然后我们要问的是，在这种

因果推断----去混杂

gpx33333的博客

01-31

1005

去混杂混杂可以简单地定义为导致P(Y|X)≠P(Y|do(X))，即两个概率出现差异的所有因素。为了去除X和Y中的混杂，我们只需要阻断它们之间的每个非因果路径，而不去阻断或干扰所有的因果路径就可以了。更确切地说，我们将后门路径（back-door path）定义为所有X和Y之间以指向X的箭头为开始的路径；如果我们阻断了所有的后门路径（因为这些路径允许X和Y之间的伪相关信息在管道中流通），则我们就完成了对X和Y的去混杂。如果我们试图通过控制某一组变量Z来实现这一点，那么我们还需要确保Z的任何成员都不是X

自然语言处理实战：用CRF打造高精度命名实体识别系统

Loving_enjoy的博客

05-03

762

无论是想快速搭建一个可用的NER系统，还是希望深入理解概率图模型的精髓，CRF都是值得放入工具箱的利器。'prev_is_b-geo': prev_tag == 'B-GEO' # 假设prev_tag是前一个标签。('参观天安门', ['O', 'B-POI', 'I-POI', 'I-POI'])" —— 人工智能先驱吴恩达。- **BiLSTM-CRF**：经典组合，在CoNLL-2003达到91%的F1值。('北京市', ['B-GEO', 'I-GEO', 'I-GEO']),

解锁DeepSeek模型微调：从小白到高手的进阶之路

最新发布

邓邓子的博客

05-05

675

本文围绕 DeepSeek 模型微调展开系统阐述。首先介绍 DeepSeek 模型在 AI 领域的重要地位及其优势，点明微调对提升模型性能的关键意义。接着深入解析微调原理，涵盖迁移学习基础与参数更新机制。随后详细讲解数据准备、模型选择加载、微调训练实战等核心步骤，包括数据收集标注预处理、参数设置与策略选择。还通过实战案例展示微调全流程，并基于评估结果提出优化改进方法。最后对 DeepSeek 模型微调进行总结，展望其未来发展方向，为希望掌握 DeepSeek 模型微调技术的读者提供全面指导。

因果推断S-learner

02-15

### S-Learner 算法原理 S-Learner 是一种用于因果推断的方法，属于单模型方法（Single Model Approach）。这种方法的核心思想是在构建单一预测模型时，将干预变量作为一个额外的输入特征。对于二元干预情况，即存在与否两种状态，可以通过设置干预标志位为1或0来进行区分。具体来说，在训练阶段，会创建一个统一的数据集，其中包含所有协变量以及指示是否接受过特定处理的一个二进制标签[^5]。这个标签通常被编码成数值形式，比如未处理记作0，已处理则设为1。接着利用这些数据去拟合一个监督学习模型，如线性回归、决策树或是更复杂的神经网络等。当需要评估某个体在接受不同处理条件下的潜在结果差异时，则只需改变该个体记录中对应于上述提到的二进制标签的位置值即可——将其设定为1代表考虑其处于已被施加某种影响的状态下可能产生的响应；反之亦然，置零意味着考察它在自然状态下应有的表现。最终通过对同一对象在这两种情形之下所获得的结果预估值求差，便能得出所谓的“处理效应”。 #### 数学表达式给定一组样本 \((X_i,T_i,Y_i)\)，\(T\) 表示治疗分配向量 (\(T\in{0,1}\)) ，而 \(Y\) 则是观察到的结果。那么对于任意个体 i 的预期收益可以定义如下： \[ E[Y|X=x,T=t]=f(x,t;\theta), t∈{0,1} \] 这里 f() 函数由选定的学习器决定，并且参数 θ 可以通过最小化损失函数 L 来估计: \[ argmin_\theta ∑_{i=1}^{N}[y_i-f(x_i,t_i;θ)]^2 \] 一旦获得了这样的模型之后，就可以计算出每个单位上因受到处理所带来的变化幅度 Δ : \[Δ=E[Y|X=x,T=1]-E[Y|X=x,T=0]\] 这实际上就是在说如果某人经历了某些事情前后会发生怎样的转变程度。 ### 应用场景实例考虑到实际案例的应用价值，S-Learner 已经广泛应用于多个领域内解决个性化推荐系统设计、市场营销策略制定等问题之中。例如在一个电商平台上想要测试促销活动的效果如何，就可以采用这种方式来衡量顾客群体里哪些成员最有可能因为折扣优惠而增加购买频率或者金额大小的变化趋势[^3]。另一个典型例子来自于医疗健康行业内的精准诊疗方案探索方面。医生们希望能够找到最适合每位病患的独特治疗方法组合，而不是简单依赖通用指南行事。借助于此技术手段能够帮助识别那些真正受益于新型疗法而非传统护理模式的人群特性因素集合。 ```python from sklearn.linear_model import LinearRegression import numpy as np def s_learner(X_train, T_train, Y_train, X_test): """ 使用简单的线性回归实现S-learner. 参数: X_train : array-like of shape (n_samples, n_features) 训练集特征矩阵 T_train : array-like of shape (n_samples,) 处理/对照标记 Y_train : array-like of shape (n_samples,) 结果变量 X_test : array-like of shape (m_samples, n_features) 测试集特征矩阵返回: ite : ndarray of shape (m_samples,) 对应于每个测试样例的个体处理效果 """ # 合并特征和处理指标作为新的特征空间 combined_X = np.column_stack([X_train, T_train]) # 构造并训练线性回归模型 lr = LinearRegression() lr.fit(combined_X, Y_train) # 获取两个版本的预测值：一个是假设所有人都接受了处理， # 另外则是没有人接受任何处理的情况。 treated_predictions = lr.predict(np.column_stack([X_test, np.ones(len(X_test))])) control_predictions = lr.predict(np.column_stack([X_test, np.zeros(len(X_test))])) # ITE等于两者的差别 ite = treated_predictions - control_predictions return ite # 假设我们已经有了合适的训练数据... ite_estimates = s_learner(X_train, treatment_flag, outcome_variable, new_customers_data) print("Estimated Individual Treatment Effects:", ite_estimates[:10]) ```