自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 机器学习——主成分分析

在这里,我们导入了NumPy用于数值计算,sklearn.decomposition模块中的PCA类用于主成分分析,sklearn.datasets模块中的fetch_lfw_people函数用于加载人脸数据集,sklearn.model_selection模块中的train_test_split函数用于划分训练集和测试集,sklearn.svm模块中的SVC类用于支持向量机分类。是一种常用的特征维度约减方法,它通过线性变换将原始数据映射到一个新的特征空间,使得映射后的特征具有最大的方差。

2024-01-01 21:35:50 1003

原创 机器学习——支持向量机

最大间隔是指在特征空间中找到一个超平面,使得它能够正确地将不同类别的样本点分开,并且该超平面距离最近的两个类别的样本点之间的距离最大。具体来说,软间隔SVM采用的是带有松弛变量的优化问题,通过引入松弛变量并限制其范围,使得一部分样本可以被分错,从而降低了模型的过拟合风险。同时,在优化问题中还引入了惩罚系数 ,用于控制误分类样本对模型的影响,通过调整 惩罚系数 的大小,可以平衡模型的偏差和方差。核函数的基本思想是将原始空间中的数据通过一个非线性变换映射到一个高维空间中,使得在该高维空间中进行线性分类或回归。

2023-12-18 15:57:56 85 1

原创 机器学习——Logistic回归

在Logistic回归中,似然函数表示为所有观测数据发生的概率的乘积,参数估计就是找到使这个概率最大的参数值。它的目标是找到一个可以用来预测目标类别概率的模型。其中x=(x1, x2, ..., xd)是由d维属性描述的样本,其中 xi 是 x 在第 i 个属性上的取值。2、 给定数据集 D={(x1, y1), (x2, y2), ..., (xm, ym)}例如:瓜类->{(0,0,1),(0,1,0),(1,0,0)}例:身高:{高,矮},性别:{男,女},瓜类:{西瓜,南瓜,黄瓜}

2023-12-04 19:28:18 90

原创 机器学习——朴素贝叶斯分类

在分类问题中,生成式模型会尝试估计出每个类别的条件概率分布P(X|Y)和类别的先验概率P(Y),然后利用贝叶斯定理计算后验概率P(Y|X)。在垃圾邮件分类中,计算特定单词在垃圾邮件和正常邮件中出现的概率,然后利用贝叶斯定理计算新邮件属于垃圾邮件和正常邮件的概率,从而进行分类。P(cj)常被称为cj的先验概率(prior probability) ,它反映了cj的概率分布,该分布独立于样本。已知两个独立事件A和B,事件B发生的前提下,事件A发生的概率可以表示为P(A|B),这个在概率论中我们也称为条件概率。

2023-11-20 18:20:40 88 2

原创 机器学习——决策树

决策树是一种基于树形结构的分类算法,通过对训练数据构建一棵树的形式来进行分类。决策树算法的优点包括易于理解和解释,处理缺失数据和异常值的能力强,对各类特征类型都支持,通常不需要进行特征归一化等预处理工作;缺点包括容易过拟合,决策树的结构和结果对训练数据的选择敏感,可能导致不稳定的模型等。总之,本次实验让我对机器学习中的决策树算法有了更深刻的理解和应用实践。

2023-11-06 18:53:58 84

原创 机器学习——pr曲线、roc曲线

AUC值(ROC曲线下的面积)可以用来衡量分类器的性能,一般情况下,AUC值越大,分类器的性能越好。计算公式为TP/(TP+FN),其中TP是真正例的数量(即正确预测为正的正例样本数量),FN是假负例的数量(即错误预测为负的正例样本数量)。计算公式为FP/(FP+TN),其中FP是假正例的数量(即错误预测为正的负例样本数量),TN是真负例的数量(即正确预测为负的负例样本数量)。:精确率被定义为“正例预测正确的概率”,即预测为正例并且实际也为正例的样本数除以所有被预测为正例的样本数。

2023-10-23 19:17:24 3353

原创 机器学习——k邻近算法(knn算法)

它的主要思想是根据样本之间的距离来确定新样本的类别,即选择与新样本最近的K个邻居,并将其多数类别作为预测结果,适用于小规模数据集和特征维度不高的场景。二、 基本原理:如下图,在一个样本集中,以需要预测的样本为半径中心(图中圆心),通过特定的距离计算方法将数据集中不同特征的数据进行与样本测距,并分布在以圆心为半径的圆上(图中的各个三角形菱形图,此时对于要预测的圆心点我们去选择距离圆心最近的k个点中相同特征最多的点来预测圆心样本的特征。例如当k=3时,图中距离中心样本的最多的是菱形,则预测中心样本也为菱形;

2023-10-09 19:41:34 311 1

原创 机器学习——基础环境的配置

2)通过代码创建虚拟环境:conda create -n 环境名 python=版本号。首次安装的时候界面会是全英文界面的,这里我们就需要自己额外去安装一些插件便捷我们的使用。1)在控制台输入python查看版本,这里我的是3.11.2。这就说明你安装完成了,齐次就是要检查anaconda是否有写入系统环境变量。3)激活虚拟环境:conda activate 环境名。这样我们就可以开始使用vscode进行编写代码了!通过以上操作我们就可以开始我们的机器学习课程啦!右键以管理员运行,并进行安装。

2023-09-25 21:17:07 108 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除