- 博客(7)
- 收藏
- 关注
原创 预测数值型数据:回归
当数据的样本数比特征数还少时候,矩阵的逆不能直接计算。即便当样本数比特征数多时,的逆仍有可能无法直接计算,这是因为特征有可能高度相关。这时可以考虑使用岭回归,因为当的逆不能计算时,它仍保证能求得回归参数。岭回归是缩减法的一种,相当于对回归系数的大小施加了限制。另一种很好的缩减法是lasso。Lasso难以求解,但可以使用计算简便的逐步线性回归方法来求得近似结果。缩减法还可以看做是对一个模型增加偏差的同时减少方差。
2024-12-09 17:44:14
931
原创 利用AdaBoost元算法提高分类性能
本章介绍的两种集成方法是bagging和boosting。在bagging中,是通过随机抽样的替换方式,得到了与原始数据集规模一样的数据集。而boosting在bagging的思路上更进了一步,它在数据集上顺序应用了多个不同的分类器。非均衡分类问题是指在分类器训练时正例数目和反例数目不相等(相差很大)。该问题在错分正例和反例的代价不同时也存在。本章不仅考察了一种不同分类器的评价方法——ROC曲线,还介绍了正确率和召回率这两种在类别重要性不同时,度量分类器性能的指标。
2024-12-08 18:11:15
788
原创 支持向量机
支持向量机是一种分类器。之所以称为“机是因为它会产生一个二值决策结果,即它是一种决策“机。支持向量机的泛化错误率较低,也就是说它具有良好的学习能力,且学到的结果具有很好的推广性。这些优点使得支持向量机十分流行,有些人认为它是监督学习中最好的定式算法。支持向量机试图通过求解一个二次优化问题来最大化分类间隔。在过去,训练支持向量机常采用非常复杂并且低效的二次规划求解方法。引入了SMO算法,此算法可以通过每次只优化2个alpha值来加快SVM的训练速度。
2024-12-02 20:50:57
894
原创 Logistic回归
1.1 基于Logistic回归和Sigmoid函数的分类回归:有一组数据点,用一条直线对这些点进行拟合(该线称为拟合直线),这个拟合过程叫做回归。利用Logistic回归进行分类的主要思想是:根据 现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归一词源于最佳拟合,表示要找到最佳拟合参数集。(1)收集数据:采用任意方法收集数据。(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3)分析数据:采用任意方法对数据进行分析。
2024-11-30 21:23:50
989
原创 基于概率论的分类方法:朴素贝叶斯
优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据贝叶斯决策理论的核心思想:选择具有最高概率的决策。
2024-11-28 19:09:16
706
原创 决策树算法
决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集时,我们首先需要测量集合中数据的不一致性,也就是熵,然后寻找最优方案划分数据集,直到数据集中的所有数据属于同一分类。ID3算法可以用于划分标称型数据集。构建决策树时,我们通常采用递归的方法将数据集转化为决策树。一般我们并不构造新的数据结构,而是使用Python语言内嵌的数据结构字典存储树节点信息。使用Matplotlib的注解功能,我们可以将存储的树结构转化为容易理解的图形。Python语言的pickle。
2024-11-25 19:57:10
690
原创 K-近邻算法
k-近邻算法采用测量不同特征值之间的距离方法进行分类。优点:精度高,对异常值不敏感,无数据输入假定;缺点:计算复杂度高,空间复杂度高。
2024-11-24 16:42:45
552
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人