自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 西瓜书(机器学习)第六章 支持向量机

对于二分类问题,分类的目标就是找到一个超平面能够将不同类别的样本点分隔开来,使得正例样本点与负例样本点到超平面的距离最大化,这个距离就是超平面到支持向量的距离,称为间隔(margin)。最大间隔支持向量机(Support Vector Machine, SVM)是一种二分类模型,它的基本思想是寻找一个最优的超平面(hyperplane)来将不同类别的样本分开,其中最优指的是使得超平面与最近的样本点(即支持向量)之间的距离最大。L1正则化加入的约束项是模型参数的L1范数,即L1范数越大,模型越稀疏。

2023-04-08 16:45:51 235

原创 西瓜书(机器学习)第五章 神经网络

神经元模型是神经网络中的基本单元。它是一种数学模型,可以接收输入信号,对其进行加权处理并施加一个激活函数,最终输出一个结果。神经元模型通常由多个输入和一个输出组成,每个输入都有一个权重参数,用于表示该输入对输出的重要程度。输入信号与权重相乘后相加,再通过激活函数进行处理,得到最终的输出结果。神经元模型的数学表达式为:其中,表示神经元的输入,表示每个输入对应的权重,b表示偏置,表示激活函数,y表示神经元的输出。在训练神经网络时,我们需要对权重和偏置进行调整,以使得神经元的输出尽可能接近目标输出。

2023-04-07 17:14:16 241

原创 西瓜书 (机器学习)第四章 决策树

预剪枝是一种在决策树生成过程中,在划分一个节点之前先估计划分该节点是否会导致过拟合的方法,如果划分后的验证集准确率不提高或者下降,则停止划分,将该节点标记为叶子节点。首先将数据集按照该属性排序,然后枚举每个相邻属性对的中间值作为分割点,将数据集分成两部分,计算每一种划分的信息增益或信息增益比,选择信息增益或信息增益比最大的分割点作为最终的分割点。首先将数据集按照该属性排序,然后枚举每个相邻属性对的中间值作为分割点,将数据集分成两部分,计算每个划分的基尼系数,选择基尼系数最小的分割点作为最终的分割点。

2023-04-06 19:55:01 298

原创 西瓜书(机器学习)第三章 线性模型

在二分类问题中,对数几率回归可以将样本分类为正类或负类,它的预测结果是一个概率值,当概率大于0.5时,将样本归为正类,否则将其归为负类。LWLR的基本思想是:对于给定的测试样本,利用训练集中与其相近的样本来进行预测,同时对于距离较远的样本赋予较小的权重,距离较近的样本赋予较大的权重。这样做的好处是,在预测时,只需要关注与测试样本最相似的那些训练样本,从而避免了不必要的计算。LDA 的假设是,不同类别的样本都是由高斯分布生成的,且不同类别的高斯分布具有相同的协方差矩阵,即各个类别的高斯分布是同性别的。

2023-04-04 21:10:02 118

原创 西瓜书(机器学习)第二章模型评估与选择(第二部分)

目录性能度量错误率和精度查准率、查全率、F1ROC与AUC代价敏感错误率与代价曲线比较检验交叉验证t检验McNemar检验Friedman检验与Nemenyi检验偏差与方差性能度量性能度量(Performance Metrics)用于衡量模型在测试集上的预测能力和准确度。不同的机器学习任务和应用场景需要使用不同的性能度量来评估模型的性能。以下是一些常见的性能度量:分类任务中的性能度量: 准确率(Accuracy):正确预测的样本数占总样本数的比例。

2023-03-28 17:31:26 456

原创 西瓜书(机器学习)第二章 模型评估与选择(第一部分)

经验误差与过拟合经验误差和泛化误差的区别评估方法之留出法评估方法之交叉验证法交叉验证法的特例,留一法自助法调参与最终模型

2023-03-27 15:15:11 204

原创 西瓜书(机器学习)第一章

样本/数据点(Sample/Data Point):指机器学习算法输入的数据单元,可以是一张图片、一段文字、一首歌曲等等。特征/属性(Feature/Attribute):指用来描述样本的属性或特征,比如一张图片的像素值、一段文字的词频、一首歌曲的节奏等等。标签/目标(Label/Target):指监督学习中,样本所对应的输出结果或类别,比如一张图片是猫还是狗、一段文字的情感倾向、一首歌曲的音乐类型等等。

2023-03-26 11:07:17 233

原创 基数排序(radixsort)迭代和递归

基数排序的时间复杂度为O(dn),其中d表示最大的数的位数,n表示待排序元素的个数,空间复杂度为O(n+k),其中k表示桶的个数,是一种较快的排序算法,但是对于极端情况下的数据,其效率可能会比较低。基数排序是一种非比较性的排序算法,它的基本思想是根据元素的位数,将元素分配到桶中,再将桶中的元素按顺序收集起来,从而实现排序的目的。需要注意的是,基数排序要求元素能够被分解为整数位,且每个位上的数字都是有限的。如果待排序元素不能满足这些条件,则无法使用基数排序。

2023-03-20 19:05:08 256

原创 冒泡排序(bubblesort)

冒泡排序的时间复杂度为O(n^2),空间复杂度为O(1),是一种比较慢的排序算法,但是它实现简单,对于小规模数据的排序比较适用。

2023-03-17 22:20:28 115

原创 快速排序(quick sort)

快速排序的时间复杂度为O(n log n),空间复杂度为O(log n),是一种比较高效的排序算法。

2023-03-17 21:34:53 1321

原创 成功安装sklearn,仍提示No module named ‘sklearn‘的 解决方案

解决sklearn库函数下载问题

2023-03-01 22:08:15 3372 1

原创 选择排序(selectionsort)和插入排序(insertionsort)

选择排序和插入排序(插入排序只写了递归的形式)

2022-10-28 10:37:33 260

原创 顺序搜索和二分搜索

顺序搜索和二分搜索

2022-10-28 10:09:11 133

原创 基于Python的堆优化单源最短路径

在了解最小堆的特性之后,首先,要实现堆运算Sift_up,假定对于某个i,其键值变成了小于父节点的键值元素,这样就违反了最小堆的特性,所以要通过Sift_up,把这个不符合最小堆特性的数据项重新转移到二叉树的合适位置,以此修复最小堆的特性。其次,在实际运算中,我们也会遇到存储在H中的数据项的键值有小于其子节点的键值的,这样也不符合最小堆的特性,因此需要用堆运算Sift_down,把这个不合适的数据项重新转移到合适的位置。

2022-10-16 19:42:43 607 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除