机器学习
文章平均质量分 54
Stay--hungry
这个作者很懒,什么都没留下…
展开
-
决策树与随机森林
决策树若要生成决策树,首先根据相似性把所有数据点分为两组,然后 针对每组重复这个二分过程。每一层叶节点都比上一层包含更少的数据点,但同质性更高。这个反复拆分数据以得到同质组的过程被称为递归拆分。虽然决策树容易解释,但存在如下缺点:不稳定决策树是通过把数据点分组生成的,数据中的细微变化可能影响拆分结果,并导致生成的决策树截然不同。此外每次拆分数据点时都力求找到最佳拆分方式,这很容易产生过拟合问题。不准确一开始就使用最佳二元选择题拆分数据点,并不能保证结果最准确。有时先用不太有效的分法反而会原创 2022-05-29 16:31:12 · 299 阅读 · 0 评论 -
支持向量机SVM
SVM的主要目标是得到一条能用于分组的最佳分界线。能用于分组的分界线可能有多条:如何找出最佳的分界线?首先需要从一组中找出距离另一组最近的外围数据点,然后在两组的外围数据点之间画出最佳分界线。根据数据点落在决策边界的哪一边对其进行分类。由于这些外围数据点在寻找最佳分界线的过程中起了支持作用, 因此它们叫作支持向量。SVM的一个优点是计算速度很快,它仅依靠外围数据点就能 找到决策边界。注意到:决策边界对支持向量的位置比较敏感,选取不同的数据点作为训练数据,得到的相应支持向量的位置也不同。原创 2022-05-29 16:11:22 · 646 阅读 · 0 评论 -
K最近邻算法
kkk最近邻算法根据周围数据点的类型对某个数据点进行分类。例如:如果一个数据点周围有4个红点和1个黑点,那么根据少数服从多数的原则,这个数据点很可能就是红色的。参数kkk表示选取的周围数据点的个数(在上面的例子中,k=5k=5k=5 )。选择kkk值的过程叫作参数调优,它对预测的准确度起着至关重要的作用。如果kkk值太小,数据点只与最近的“邻居”匹配,并且随机噪声所产生的误差也会被放大如果kkk值太大,数据点会尝试与更远的“邻居”匹配,其中隐含的模式会被忽略只有当kkk值恰到好处时,数据点才会原创 2022-05-29 15:42:16 · 721 阅读 · 0 评论 -
K均值聚类
在确定了所分的类数KKK之后,每个类中成员是在迭代过程中确定的。算法步骤:初始时先随意指定KKK个类心(“伪中心点”)。在每次迭代中:枚举每个结点,根据该点到KKK个类心的距离,判断该点属于哪一类将所有结点成功分到KKK个类求出新的每个类的类心不断迭代,直到类心不再发生改变。局限性:每个数据点只能属于一个类。数据点可能恰好位于多个类中间,无法通过KKK均值聚类方法确定它应该属于哪个类。类被假定是正圆形的。查找距离某个类心最近的数据点,这一迭代过程类似于缩小类的半径,因此最终得到的原创 2022-05-25 21:22:15 · 224 阅读 · 0 评论 -
机器学习基础(2)
数据科学研究的4个主要步骤:处理和准备待分析的数据根据研究需求挑选合适的算法对算法的参数进行调优,以便优化结果创建模型,并比较各个模型,从中选出最好的一个文章目录数据常见算法参数调优训练与测试模型评价模型数据表格是最常用的数据表示形式,表格中的每一行就是一个数据点,代表一个观测结果;每一列是一个变量(也叫属性、特征或维度),用来描述数据点。变量可以分为4类:二值变量最简单的变量类型,只有两种可能的值(“是否买鱼”)。分类变量当某信息可以取两个以上的值时,便可以使用分类变量来表原创 2022-05-25 20:21:40 · 216 阅读 · 0 评论 -
机器学习基础
预测问题与分类问题机器学习主要基于对大量数据的分析,用于解决以下类型的问题:预测问题预测问题是指:通过给定的输入,得到与目标尽可能接近的输出这类问题。也称为回归问题。解决该问题的基本过程为:为问题建立合适的函数模型,通过“学习”得到模型的最佳参数,最终得到“能根据输入向量,得到和目标向量尽可能接近的输出向量”这样一个训练好的模型。所谓学习,就是指:为了使输入得到的结果与目标尽可能接近,使用训练数据对参数进行调整的过程。分类问题解决分类问题的过程就是从大量数据中总结规律和规则,从而发现模原创 2022-05-17 22:38:40 · 119 阅读 · 0 评论 -
K-means C++实现
基本思想:取定ccc个类别和选取ccc个初始聚类中心,按最小距离原则将各模式分别分配到各类;不断地计算类心和调整各模式的类别,直至各模式到其判属类别中心的距离平方和最小。#include <iostream>#include <cstdio>#include <cmath>#include <cstring>using namespace std;struct Iris{ int id; double SepalLe原创 2022-03-21 14:10:21 · 538 阅读 · 0 评论