dfly_zx的博客

AI医疗

关注

文章平均质量分 90

关注数：文章数：11 文章阅读量：28532 文章收藏量：116

作者: flare zhao

AI教育专家、Forbes科技U30、CSDN精英讲师、澳大利亚新南威尔士大学博士、深圳孔雀人才

展开

样本不均衡及其解决办法

1 什么是类别不均衡类别不平衡（class-imbalance），也叫数据倾斜，数据不平衡，是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类学习任务中，我们经常会遇到类别不平衡，例如广告点击率预测、故障分析、异常检测等；或者在通过拆分法解决多分类问题时，即使原始问题中不同类别的训练样例数目相当，在使用OvR（One vs. Rest）、MvM（Many vs. Many）策略后产生的二分类任务仍然可能出现类别不平衡现象。而标准机器学习算法通常假设不同类别的样本数量大致相似，所以类别不

转载 2022-02-26 17:29:00 · 8714 阅读 · 1 评论
炼丹笔记：样本不平衡问题

大家好，今天给大家带来的分享是关于“深度学习中的样本不平衡问题”。深度学习算法工程师，也被戏称为“炼丹师”，而样本，就是所谓的药材。最后训练出来的模型，就是丹药。当然，药材成色好，年分足，自然更容易炼出好的丹药。难得是，在药材劣质的情况下，如何也能够保证得到一炉仙丹呢？这个就要看丹师的药材配方和炼丹技术了。今天，我们给大家介绍的样本不平衡问题，就是为了帮助丹师们解决药材不好的难题，进而来提高炼丹技术。1. 什么是样本不平衡问题？所谓的类别不平衡问题指的是数据集中各个类别的样本数量极不均衡。以二分

转载 2022-02-26 17:19:38 · 825 阅读 · 0 评论
一文解决样本不均衡

1.1 样本不均衡现象样本（类别）样本不平衡（class-imbalance）指的是分类任务中不同类别的训练样例数目差别很大的情况，一般地，样本类别比例（Imbalance Ratio）（多数类vs少数类）明显大于1:1（如4：1）就可以归为样本不均衡的问题。现实中，样本不平衡是一种常见的现象，如：金融欺诈交易检测，欺诈交易的订单样本通常是占总交易数量的极少部分，而且对于有些任务而言少数样本更为重要。注：本文主要探讨分类任务的类别不均衡，回归任务的样本不均衡详见《Delving into De

转载 2022-02-26 17:17:45 · 957 阅读 · 0 评论
一文学习模型融合

模型融合：通过融合多个不同的模型，可能提升机器学习的性能。这一方法在各种机器学习比赛中广泛应用，也是在比赛的攻坚时刻冲刺Top的关键。而融合模型往往又可以从模型结果，模型自身，样本集等不同的角度进行融合。数据及背景https://tianchi.aliyun.com/competition/entrance/231784/information（阿里天池-零基础入门数据挖掘）模型融合如果你打算买一辆车，你会直接走进第一家4S店，然后在店员的推销下直接把车买了吗？大概率不会，你会先去

转载 2022-02-26 17:11:14 · 712 阅读 · 0 评论
精确率与召回率，RoC曲线与PR曲线

在机器学习的算法评估中，尤其是分类算法评估中，我们经常听到精确率(precision)与召回率(recall)，RoC曲线与PR曲线这些概念，那这些概念到底有什么用处呢？　　　　首先，我们需要搞清楚几个拗口的概念：1. TP, FP, TN, FN 　　True Positives,TP：预测为正样本，实际也为正样本的特征数　　False Positives,FP：预测为正样本，实际为负样本的特征数　　True Negatives,TN：预测为负样本，实际也为负样本的特征数　

转载 2022-02-26 16:37:24 · 791 阅读 · 0 评论
分类算法评价指标详解

一、基本概念评价指标是针对模型性能优劣的一个定量指标。一种评价指标只能反映模型一部分性能，如果选择的评价指标不合理，那么可能会得出错误的结论，故而应该针对具体的数据、模型选取不同的的评价指标。本文将详细介绍机器学习分类任务的常用评价指标：混淆矩阵（Confuse Matrix）、准确率（Accuracy）、精确率（Precision）、召回率（Recall）、F1 Score、P-R曲线（Precision-Recall Curve）、ROC、AUC。二、混淆矩阵（Confuse Matri

转载 2022-02-26 16:34:27 · 1966 阅读 · 0 评论
scikit-learn 梯度提升树(GBDT)调参小结

在梯度提升树(GBDT)原理小结中，我们对GBDT的原理做了总结，本文我们就从scikit-learn里GBDT的类库使用方法作一个总结，主要会关注调参中的一些要点。1.scikit-learn GBDT类库概述　　　　在sacikit-learn中，GradientBoostingClassifier为GBDT的分类类，而GradientBoostingRegressor为GBDT的回归类。两者的参数类型完全相同，当然有些参数比如损失函数loss的可选择项并不相同。这些参数中，类似于Ada...

转载 2022-02-26 15:53:51 · 1215 阅读 · 0 评论
人工智能技术专家系统

什么是专家系统？专家系统被定义为一种交互式可靠的基于计算机的决策系统，它使用事实和启发式方法来解决复杂的决策问题。它被认为是人类智慧和专业知识的最高水平。它是一个计算机应用程序，可以解决特定域中最复杂的问题。专家系统可以解决通常需要人类专家的许多问题。它基于从专家那里获得的知识。它还能够表达和推理某些知识领域。专家系统是当今人工智能，深度学习和机器学习系统的前身。专家系统的例子以下是专家系统的示例MYCIN：它基于反向链接，可以识别可能导致急性感染的各种细菌。它还可以根据患者的体重推荐药物。.

转载 2022-02-26 15:10:20 · 3097 阅读 · 0 评论
人工智能(ai)和专家系统(expert system)的区别

专家系统是人工智能领域的重要研究领域之一。事实上，专家系统代表了人工智能能力的最成功的证明，它们是人工智能领域工作的第一个真正的商业应用。专家系统是模拟人类专家的思维过程来解决特定领域复杂决策问题的计算机程序。专家系统是人工智能领域的重要研究领域之一。事实上，专家系统代表了人工智能能力的最成功的证明，它们是人工智能领域工作的第一个真正的商业应用。专家系统是模拟人类专家的思维过程来解决特定领域复杂决策问题的计算机程序。什么是人工智能(artificial intelligence)？人工智

转载 2022-02-26 15:08:21 · 9724 阅读 · 0 评论
特征工程在实际业务中的应用

导读：大概知道特征工程，但是不清楚特征工程在实际业务中怎样应用，怎么和业务知识结合？本文将结合作者实际经历尝试回答。首先明确一下问题，“特征工程在实际业务中的应用”，也就是领域业务知识和机器学习建模的相互结合。下面会对特征工程简单介绍，并且用自己工作中实际参与的项目给大家分享在银行贷款申请反欺诈场景&零售线上APP推荐场景的机器学习建模里，业务知识是如何帮助特征工程的。01 简单介绍特征工程是什么？特征工程是工业界建模中最最最重要的一个模块。模型效果的好坏，一部分是由数据质量决定...

转载 2022-02-26 14:51:08 · 364 阅读 · 0 评论
python逻辑控制语句

if语句基本格式如果if语句判断是True，就把缩进的两行print语句执行了，否则，什么也不做。if...else...语句 if 条件：条件为真（True）执行的操作else：条件为假（False）执行的操作if....

转载 2022-02-26 14:41:23 · 184 阅读 · 0 评论