机器学习四 数据的差异性

1、数据的差异性

      值域:在直方图分布中,值域的值为最大值与最小值相减后的所得值。

                  当我们向数据集中添加数据的时候,有时候会改变值域大小。

      四分位数(IQR):公式IQR=Q3-Q1

                                        在绘制盒须图的时候经常用到。

                  Q1:前25%的数据集的中位数

                  Q3:后25%的数据集的中位数

                  Q2:数据集的中位数

                 不足:IQR不能满足对数据集信息的提取要求。

      方差(variance

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
正如预期的那样,GridSearch 模型沿着增大的均衡准确率(但也存在更大的差异问题)如下。这使数据科学家可以灵活地选择一个最适合应用环境的模型,取得均衡准确率与差异中的一个可以接受的平衡点。 同样我们在AUC与差异之间也可以选择一个可以接受的平衡点。 在Fairlearn提供的Dashboard中可以看到每个模型的accuracy/Precision等细节,能帮助我们选择适合的模型。 从某一方面(隐私、公平、对抗攻击、可解释等)入手,自行实现一个简单的可信机器学习算法(如基于SVM、决策树、神经网路、概率图模型等),课堂展示并简要介绍算法原理. ## 二、Job Background ​ 人工智能(AI)为改变我们分配信贷和处理风险的方式提供了一个机会,并创造了更公平、更包容的系统。人工智能可以避免传统的信用报告和评分系统,这有助于抛弃现有的偏见,使它成为一个难得的,改变现状的机会。然而,人工智能很容易朝另一个方向发展,加剧现有的偏见,创造出一个循环,加强有偏见的信贷分配,同时使贷款歧视更难找到。我们将通过开源模型Fairlearn来释放积极的一面,缓解偏见消极的一面。 ## 三、The experiment content - **涉及领域:** - 金融贷款方面的决策分析。我们分析的数据是原始数据经过人工简单处理过的,是为了展现准确性方面的悬殊差异。 - **机器学习任务:** - 二元性分类 - **机器学习公平任务:** - 使用Fairlearn metrics和Fairlearn dashboard来评估模型的公平。 - 使用Fairlearn中的改进算法来改进模型的公平水平。 - **性能指标:** - ROC曲线下的面积。 - 平衡过后的准确率。 - **公平指标:** - Equalized-odds difference. - **改进的算法:** - `fairlearn.reductions.GridSearch` - `fairlearn.postprocessing.ThresholdOptimizer` 数据集 https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients 相关信息“ https://blog.csdn.net/Mrrunsen/article/details/122143494

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值