兰花草999-CSDN博客

原创机器学习-支持向量机

我们看一个简单的二维空间的例子，+代表正类，-代表负类，样本是线性可分的，但是很显然不只有这一条直线可以将样本分开，而是有无数条，我们所说的线性可分支持向量机就对应着能将数据正确划分并且间隔最大的直线。换句话说，由于支持向量计算法的最终决策函数只由少数的支持向量所确定，所以计算的复杂性取决于支持向量的数目，而不是样本空间的维数。经典的支持向量机算法只给出了二分类的算法，而在数据挖掘的实际应用中，一般要解决多分类问题，但支持向量机对于多分类问题解决效果并不理想。被虚线截到的一个或者多个样本就叫做支持向量。

2022-12-18 20:16:13 707 1

原创机器学习-Logistic回归

1.logistics回归优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。适用类型数据：数值型和标称型数据。2.logistics回归的一般步骤：(1)收集数据：采用任意方法收集数据(2)准备数据：由于需要计算，因此要求数据类型位数值型。另外，结构化数据格式则最佳。(3)分析数据：任意方法分析。(4)训练算法：大部分时间用于训练，训练目的是为了找到最佳的分类系数(5)测试算法：一旦训练步骤完成，分类将会很快(6)使用算法：首先，我们社需要输入一些数据，并将其转换成对应的结构化数值；接

2022-12-07 18:28:38 383

原创机器学习-决策树-剪枝处理

预剪枝是在构建决策树的过程中，提前停止使模型性能变差的分支。容易偏向取值较多的特征，准确率不如信息增益率；① 不能对连续数据进行处理，只能通过连续数据。① 产生的规则容易理解，准确率高，实现简单；② 对数据进行多次顺序扫描和排序，效率低；③ 只适合小规模数据集，需要将数据放到。的结构可能过于复杂，容易出现过拟合。剪枝算法主要分为两种，预剪枝和后剪枝。（5）创建树生成相关函数。现象，提升模型的泛化效果。

2022-11-23 15:53:11 606

原创机器学习-朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。

2022-11-19 17:00:23 322

原创机器学习决策树

（6）使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。（1）计算复杂度不高，输出结果易于理解，对中间的缺失不敏感，可以处理不相关特征数据。（3）分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否费和预期。（2）准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。4.适用范围：适用于不确定性投资方案期望收益的定量分析。（5）测试算法：使用经验树计算错误率。（4）训练算法：构造树的数据结构。（1）收集数据：可以用任何方法。

2022-11-13 21:15:19 316

原创机器学习K近邻算法

存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据都与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集中特征最相数据（最近邻）的分类标签。（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行K近邻算法判定输入数据分别属于哪一类，最后应用对计算出的分类执行后续的处理。对准备数据：通过python导入数据，对训练数据用numpy创建数据集group和标签labels。

2022-11-04 15:12:43 181

原创 ROC曲线和PR曲线

在PR曲线中，以Recall（为x轴，Precision为y轴。在ROC曲线中，以FPR为x轴，TPR为y轴，FPR指实际负样本中被错误预测为正样本的概率。伪反例(False Positive): 指错误分类为正的样本数，实际为负，预测为正。伪反例(False Negative):指错误分类为负的样本数，实际为正，预测为负。真正例(True Positive)：指正确分类成为正的样本数，实际为正，预测为正。真反例(True Negative):指正确分类为负的样本数，实际为负，预测为负。

2022-11-02 19:01:52 242

原创机器学习实战第1章知识点

Python提供大量机器学习的代码库和框架，在数学运算方面有NumPy、SciPy，在可视化方面有MatplotLib、SeaBorn，结构化数据操作可以通过Pandas，针对各种垂直领域比如图像、语音、文本在预处理阶段都有成熟的库可以调用。Python语言使用广泛，代码范例很多，便于读者快速学习和掌握。Python在机器学习领域大放异彩的不仅是某个功能，而是Python整个语言包：它是一种易学易用的语言，它的生态系统拥有的第三方代码库可以涵盖广泛的机器学习用例和性能，可以帮助你很好地完成手头的工作。

2022-10-12 23:04:39 590

qq_54915934的博客