数据挖掘与机器学习
汇美吴轻疯
这个作者很懒,什么都没留下…
展开
-
KNN算法
KNN算法1. KNN算法原理1.1 K值选择1.2 距离计算1.3 算法优缺点1. KNN算法原理k近邻方法是一种惰性学习算法,可以用于回归和分类,它的主要思想是投票机制,对于一个测试实例x, 我们在有标签的训练数据集上找到和最相近的k个数据,用他们的label进行投票,分类问题则进行表决投票,回归问题使用加权平均或者直接平均的方法。1.1 K值选择kNN中的k是一个超参数,需要我们进行指定,一般情况下这个k和数据有很大关系,都是交叉验证进行选择,但是建议使用交叉验证的时候,k∈[2,20],使用原创 2020-12-21 20:56:48 · 5255 阅读 · 1 评论 -
经典分类器——朴素贝叶斯算法
1. 算法原理1.1 朴素贝叶斯算法原理朴素贝叶斯算法(Naive Bayes) 是应用最为广泛的分类算法之一。它是基于贝叶斯定义和特征条件独立假设的分类器方法。由于朴素贝叶斯法基于贝叶斯公式计算得到,有着坚实的数学基础,以及稳定的分类效率。NB模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。朴素贝叶斯算法假设所有特征的出现相互独立互不影响,每一特征同等重要,又因为其简单,而且具有很好的可解释性一般。相对于其他精心设计的更复杂的分类算法,朴素贝叶斯分类算法是学习效率和分类效果较好的分类器原创 2020-12-18 22:07:25 · 868 阅读 · 1 评论 -
最简单的线性分类器——逻辑回归
1. 分类和分类器1.1 分类在数据挖掘中,常见的方法有四类,回归、分类、聚类和关联分析(根据关联做推荐)。其中分类是对已知类别的数据进行学习和分类,确定分类的标准和依据。从而实现在获取新对象(数据或内容)时,为新对象划分其所属类别。1.2 分类器分类器即分类过程中需要用到的分类函数或分类模型。该函数或模型可以把对象的数据映射到指定类别中的某一个,从而可用于数据的分类预测。分类器的构造大致需要以下四个步骤:选定样本,将所有样本分为训练集和测试集两个部分。在选定样本时尤其要注意不同类别原创 2020-12-15 11:45:24 · 1020 阅读 · 0 评论