自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 预测数值型数据:回归

当数据的样本数比特征数还少时候,矩阵的逆不能直接计算。即便当样本数比特征数多时,的逆仍有可能无法直接计算,这是因为特征有可能高度相关。这时可以考虑使用岭回归,因为当的逆不能计算时,它仍保证能求得回归参数。岭回归是缩减法的一种,相当于对回归系数的大小施加了限制。另一种很好的缩减法是lasso。Lasso难以求解,但可以使用计算简便的逐步线性回归方法来求得近似结果。缩减法还可以看做是对一个模型增加偏差的同时减少方差。

2024-12-09 17:44:14 931

原创 利用AdaBoost元算法提高分类性能

本章介绍的两种集成方法是bagging和boosting。在bagging中,是通过随机抽样的替换方式,得到了与原始数据集规模一样的数据集。而boosting在bagging的思路上更进了一步,它在数据集上顺序应用了多个不同的分类器。非均衡分类问题是指在分类器训练时正例数目和反例数目不相等(相差很大)。该问题在错分正例和反例的代价不同时也存在。本章不仅考察了一种不同分类器的评价方法——ROC曲线,还介绍了正确率和召回率这两种在类别重要性不同时,度量分类器性能的指标。

2024-12-08 18:11:15 788

原创 支持向量机

支持向量机是一种分类器。之所以称为“机是因为它会产生一个二值决策结果,即它是一种决策“机。支持向量机的泛化错误率较低,也就是说它具有良好的学习能力,且学到的结果具有很好的推广性。这些优点使得支持向量机十分流行,有些人认为它是监督学习中最好的定式算法。支持向量机试图通过求解一个二次优化问题来最大化分类间隔。在过去,训练支持向量机常采用非常复杂并且低效的二次规划求解方法。引入了SMO算法,此算法可以通过每次只优化2个alpha值来加快SVM的训练速度。

2024-12-02 20:50:57 894

原创 Logistic回归

1.1 基于Logistic回归和Sigmoid函数的分类回归:有一组数据点,用一条直线对这些点进行拟合(该线称为拟合直线),这个拟合过程叫做回归。利用Logistic回归进行分类的主要思想是:根据 现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归一词源于最佳拟合,表示要找到最佳拟合参数集。(1)收集数据:采用任意方法收集数据。(2)准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3)分析数据:采用任意方法对数据进行分析。

2024-11-30 21:23:50 989

原创 基于概率论的分类方法:朴素贝叶斯

优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感适用数据类型:标称型数据贝叶斯决策理论的核心思想:选择具有最高概率的决策。

2024-11-28 19:09:16 706

原创 决策树算法

决策树分类器就像带有终止块的流程图,终止块表示分类结果。开始处理数据集时,我们首先需要测量集合中数据的不一致性,也就是熵,然后寻找最优方案划分数据集,直到数据集中的所有数据属于同一分类。ID3算法可以用于划分标称型数据集。构建决策树时,我们通常采用递归的方法将数据集转化为决策树。一般我们并不构造新的数据结构,而是使用Python语言内嵌的数据结构字典存储树节点信息。使用Matplotlib的注解功能,我们可以将存储的树结构转化为容易理解的图形。Python语言的pickle。

2024-11-25 19:57:10 690

原创 K-近邻算法

k-近邻算法采用测量不同特征值之间的距离方法进行分类。优点:精度高,对异常值不敏感,无数据输入假定;缺点:计算复杂度高,空间复杂度高。

2024-11-24 16:42:45 552 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除