机器学习实战
bugkingyzy
这个作者很懒,什么都没留下…
展开
-
详细理解准确率、精准率、召回率,F1值等评价指标的含义
机器学习问题之中,通常需要建立模型来解决具体问题,但对于模型的好坏,也就是模型的泛化能力,如何进行评估?我们可以定一些评价指标,来度量模型的优劣。比如准确率、精确率、召回率、F1值、ROC、AUC等指标。1. 混淆矩阵介绍各个指标之前,我们先来了解一下混淆矩阵。假如现在有一个二分类问题,那么预测结果和实际结果两两结合会出现如下四种情况。由于用数字1、0表示不太方便阅读,我们转换一下,用T(True)代表正确、F(False)代表错误、P(Positive)代表1、N(Negative)代表0。先看预转载 2020-08-29 19:04:42 · 4311 阅读 · 0 评论 -
机器学习—交叉验证
1.交叉验证简介交叉验证(Cross Validation) 是在机器学习建立模型和验证模型参数时常用的方法。顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集。用训练集来训练模型,测试集来评估模型的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的样本,在下次可能成为测试集中的样本,也就是所谓的交叉。2. 为什么用交叉验证?交叉验证用在数据量不是很充足的情况(比如数据量小于一万条),能够从有限的数据中获取尽可能多的有效信息。交叉验证用于评估模原创 2020-08-28 23:31:07 · 1893 阅读 · 0 评论 -
机器学习实战——决策树
决策树决策树的理解决策树的构造一般流程信息增益代码划分数据集选择最好的划分方法多数表决法递归创建树的函数决策树的理解决策树(decision tree)是一种基本的分类与回归方法。学过数据结构的朋友会知道树的结构图,我们使用树的结构将数据划分类别的树,叫做决策树。我们通过一张图来理解。决策树的构造一般流程使用决策树做预测需要以下过程:1.收集数据:可以使用任何方法。比如想构建一个相亲系统,我们可以从媒婆那里,或者通过参访相亲对象获取数据。2.准备数据:收集完的数据,我们要进行整理,将这些所原创 2020-08-12 20:26:39 · 1183 阅读 · 0 评论 -
机器学习实战——K-近邻算法
K-近邻算法算法简介样例准备数据算法实现算法简介k近邻法是一种基本分类与回归方法采用测量不同特征值之间的距离方法进行分类优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高。空间复杂度高。适合范围:数值型,标称型原理:存在一个训练样本集,样本集中每个数据都有标签(自己的类别),在输入最新的没有类别的数据之后,计算每个样本与最新数据的距离,一般我们选择距离最近的前k个样本,这k个样本中出现最多的类别,作为新数据的分类。样例使用机器学习实战书本上的样例电影镜头打斗镜原创 2020-07-27 15:28:43 · 1071 阅读 · 0 评论