自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 使用PCA主成分分析进行图像的降维

PCA(主成分分析)是一种常用的数据降维技术,用于将高维数据集转换为低维表示,同时保留原始数据中最重要的变化信息。PCA(主成分分析)的目标是通过线性变换将原始数据投影到一个新的坐标系中,使得投影后的数据在各个维度上具有最大的方差。这样做的好处是,可以减少数据的冗余信息,并捕捉到数据中最显著的结构和模式。PCA(主成分分析)基本思路是:通过协方差分析,建立高维空间到低维空间的线性映射/矩阵;保留尽可能多的样本信息;压缩后的数据对分类、聚类尽量不产生影响,甚至有所提升。

2024-01-01 20:46:34 1687

原创 使用支持向量机策略实现简易的垃圾邮件分类器

支持向量机(SVM)是一种用于分类和回归分析的监督学习算法。它的目标是找到一个最优的超平面(在二维空间中就是一条直线)来将不同类别的样本分开。主要思想是通过找到离超平面最近的一些样本点(即支持向量),来确定分类边界。这些支持向量距离超平面的距离被称为间隔,支持向量机的目标是最大化间隔,以提高分类的鲁棒性(鲁棒性:通过最大化间隔,支持向量机对异常值的影响较小)。支持向量机可以使用不同的核函数来处理线性不可分的情况,其中最常用的是高斯核函数。

2023-12-18 20:31:24 436 1

原创 使用logistics回归简单实现垃圾邮件分类

logistics回归是一种广泛应用于分类任务的统计学习方法。该算法的基础是sigmoid函数,也称为逻辑函数。sigmoid函数可以将任意实数映射到区间[0,1],因此可以用来表示概率。在logistics回归中,模型通过对输入特征的线性组合进行sigmoid函数变换,得到输出结果。模型参数的学习使用了最大似然估计方法,即使得训练数据样本的条件概率最大化。这样,logistics回归模型就可以对新的样本进行分类,并给出该样本属于每个类别的概率值。

2023-12-04 19:24:21 254

原创 简单使用朴素贝叶斯分类器实现垃圾邮件分类

首先我们要知道贝叶斯理论,贝叶斯理论可以帮助我们根据已知的信息和新获取的信息,对未知事件进行概率推断。在贝叶斯理论中,我们把待推断的事件称为“假设”,将已知的信息称为“先验条件”或“先验概率”,将新的信息称为“证据”。根据贝叶斯定理,我们可以通过先验条件和证据来计算假设的后验概率。贝叶斯定理的公式为:而朴素贝叶斯是一种基于概率统计和特征独立性假设的分类算法。它是基于贝叶斯定理和特征条件独立性假设的。

2023-11-20 21:21:49 358 1

原创 决策树算法的简易实现

决策树算法是一种基于树结构的监督学习算法,用于解决分类和回归问题。它通过构建一个树状的决策模型来进行预测。在决策树中,每个内部节点表示特征或属性,叶子节点表示类别或数值。通过逐步划分数据集,决策树能够根据输入特征的不同值将数据集分割成不同的子集,从而实现对数据的分类或回归预测。决策树算法的主要思想是选择最佳的特征来进行分割,以使得分割后的子集尽可能地纯净或有序。常用的衡量指标包括熵、信息增益、基尼指数等。通过递归地选择最佳特征并分割数据集,最终构建出一棵完整的决策树。

2023-11-06 20:29:18 94 1

原创 P-R曲线和ROC曲线的

P-R曲线是一种用于评估分类器性能的常用工具,特别适用于处理不均衡类别分布的问题。P-R 曲线展示了在不同阈值下分类器的精确率和召回率之间的关系。P-R 曲线的横轴是召回率,纵轴是精确率。通过改变分类器的阈值,在横轴上从 0 到 1 的范围内取不同的点,可以计算出对应的精确率和召回率,并绘制出 P-R 曲线。精确率(Precision):在所有被分类为正例的样本中,真实为正例的样本所占的比例。精确率衡量了模型预测为正例的样本中真实正例的准确性。

2023-10-23 21:31:46 184

原创 KNN(K近邻算法)的简单实现

KNN算法是一种简单的实现样本点数据分类的非参数的监督学习算法,可用于回归和分类问题。其简单易懂,实现过程相对比较简单,容易理解和实现;其无需训练,是一种非参数算法,不用要事先对数据进行训练,因此可以直接应用于新数据集;其适用性广泛,具有很好的通用性,可用于分类和回归等多种任务。可同时,KNN算法计算复杂度高,当训练集较大时,KNN算法的计算复杂度会随之增加,特别是在高维空间中会出现“维度灾难”,导致算法性能下降;其对异常值也很敏感,只考虑了距离而没有考虑样本的相关性,容易受到噪声等干扰影响。

2023-10-09 21:22:19 100 2

原创 Visual Studio Code的下载安装与Anaconda环境的配置

选择并下载符合自己系统的VSCode版本。这样Anaconda的系统环境变量就配置完成啦~如果出现以下结果则系统环境变量配置成功。如果出现以下结果则系统环境变量未配置。三、Anaconda环境配置。二、VSCode的安装。点击Download。

2023-09-25 20:20:47 254 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除