苍白@骑士-CSDN博客

原创预测数值型数据：回归

当数据的样本数比特征数还少时候，矩阵的逆不能直接计算。即便当样本数比特征数多时，的逆仍有可能无法直接计算，这是因为特征有可能高度相关。这时可以考虑使用岭回归，因为当的逆不能计算时，它仍保证能求得回归参数。岭回归是缩减法的一种，相当于对回归系数的大小施加了限制。另一种很好的缩减法是lasso。Lasso难以求解，但可以使用计算简便的逐步线性回归方法来求得近似结果。缩减法还可以看做是对一个模型增加偏差的同时减少方差。

2024-12-09 17:44:14 931

原创利用AdaBoost元算法提高分类性能

本章介绍的两种集成方法是bagging和boosting。在bagging中，是通过随机抽样的替换方式，得到了与原始数据集规模一样的数据集。而boosting在bagging的思路上更进了一步，它在数据集上顺序应用了多个不同的分类器。非均衡分类问题是指在分类器训练时正例数目和反例数目不相等（相差很大）。该问题在错分正例和反例的代价不同时也存在。本章不仅考察了一种不同分类器的评价方法——ROC曲线，还介绍了正确率和召回率这两种在类别重要性不同时，度量分类器性能的指标。

2024-12-08 18:11:15 788

原创支持向量机

支持向量机是一种分类器。之所以称为“机是因为它会产生一个二值决策结果，即它是一种决策“机。支持向量机的泛化错误率较低，也就是说它具有良好的学习能力，且学到的结果具有很好的推广性。这些优点使得支持向量机十分流行，有些人认为它是监督学习中最好的定式算法。支持向量机试图通过求解一个二次优化问题来最大化分类间隔。在过去，训练支持向量机常采用非常复杂并且低效的二次规划求解方法。引入了SMO算法，此算法可以通过每次只优化2个alpha值来加快SVM的训练速度。

2024-12-02 20:50:57 894

原创 Logistic回归

1.1 基于Logistic回归和Sigmoid函数的分类回归：有一组数据点，用一条直线对这些点进行拟合（该线称为拟合直线），这个拟合过程叫做回归。利用Logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。这里的“回归一词源于最佳拟合，表示要找到最佳拟合参数集。（1）收集数据：采用任意方法收集数据。（2）准备数据：由于需要进行距离计算，因此要求数据类型为数值型。另外，结构化数据格式则最佳。（3）分析数据：采用任意方法对数据进行分析。

2024-11-30 21:23:50 989

原创基于概率论的分类方法：朴素贝叶斯

优点：在数据较少的情况下仍然有效，可以处理多类别问题缺点：对于输入数据的准备方式较为敏感适用数据类型：标称型数据贝叶斯决策理论的核心思想：选择具有最高概率的决策。

2024-11-28 19:09:16 706

原创决策树算法

决策树分类器就像带有终止块的流程图，终止块表示分类结果。开始处理数据集时，我们首先需要测量集合中数据的不一致性，也就是熵，然后寻找最优方案划分数据集，直到数据集中的所有数据属于同一分类。ID3算法可以用于划分标称型数据集。构建决策树时，我们通常采用递归的方法将数据集转化为决策树。一般我们并不构造新的数据结构，而是使用Python语言内嵌的数据结构字典存储树节点信息。使用Matplotlib的注解功能，我们可以将存储的树结构转化为容易理解的图形。Python语言的pickle。

2024-11-25 19:57:10 690