自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 机器学习-------主成分分析(PCA)

PCA(Principal Component Analysis,主成分分析)是一种常用的数据分析方法,用于在多个变量中识别出主要的模式或趋势,并减少数据集的维度。PCA 通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,这些新的变量称为主成分。1.2.1.1主成分通过PCA转换得到的新变量。这些主成分是按照其“重要性”或“信息量”进行排序的,通常第一个主成分包含了数据集中最大的方差(即信息)。1.2.1.2方差在统计学中,方差是衡量数据集中各个数值与其均值之间差异程度的一个指标。

2024-06-18 17:01:48 988

原创 机器学习————————支持向量机

支持向量机(SVM)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化。SVM的目标就是要找到这个超平面。1.2间隔与超平面能在实验中将数据集分隔开的直线一般称为分隔超平面。而点到分隔面的距离则被我们称之为间隔。而在所要求的样本空间中,超平面的函数表达形式一般写作:其中b的含义与Logistic回归中的截距w0类似。而任意一点A(w,b)到超平面的距离(通过高中所学的点到直线的距离公式)可写作:根据上述公式可以得出间隔:如下图。

2024-06-11 02:26:51 698

原创 机器学习---------Logistic分析

Logistic回归是一种广义的线性回归分析模型,它常用于数据挖掘、疾病自动诊断、经济预测等领域。虽然其名字中包含回归二字,但实际上它是一种分类方法,主要用于二分类问题。逻辑回归线性回归+Sigmoid函数在逻辑回归中,因变量()为二分类的类别变量(如0和1,是或否,真或假),而自变量()可以是连续的,也可以是分类的。不过,二项逻辑回归的自变量一般是连续的,其因变量则是二分类的。1.2线性回归线性回归(

2024-05-28 17:03:25 937

原创 朴素贝叶斯算法

定义加载数据集,其中包含训练集和待测集。dataSet=[['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, '好瓜'],['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, '好瓜'],['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, '好瓜'],

2024-05-14 17:33:39 919 1

原创 机器学习——————决策树的应用

重复上述属性选择和决策树构建的过程,直到满足以下条件之一:所有样本都属于同一类别(即叶节点中只包含一个类别的样本),或者没有剩余属性可供选择。对于每个子节点,递归地选择最优属性进行划分,直到满足停止条件(如所有样本属于同一类别,或没有属性可用,或节点包含的样本数过少等)。算法的目标是监督学习,即给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。算法的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。

2024-04-29 22:22:57 812

原创 机器学习——模型评估

它基于模型在不同阈值下的预测结果,通过计算真正率(True Positive Rate,即召回率)和假正率(False Positive Rate)之间的关系来绘制曲线。真正率是指分类器在所有实际为正例中正确预测为正例的比例,而假正率是指分类器在所有实际为负例中错误预测为正例的比例。精度是指模型预测为正例的样本中真正为正例的比例,而召回率与ROC曲线中的真正率相同。总结来说,ROC曲线和PR曲线在机器学习中各有侧重。ROC曲线更适用于评估模型对整体样本的分类效果,而PR曲线则更关注模型对少数类的识别能力。

2024-04-16 16:27:29 808

原创 KNN算法(k近邻算法)

未来,我们将继续探索KNN算法的优化策略,如加权KNN、距离度量方法的改进等,以提高算法的性能和适用范围。KNN算法的核心思想是:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。为了改进这一点,我们考虑采用加权KNN算法,即根据样本与待分类样本之间的距离赋予不同的权重,以提高分类的准确性。通过数据准备、预处理、特征选择、模型构建、评估及参数调优等环节,全面了解KNN算法的工作机制,并评估其在实际问题中的性能。# 提取这k个邻居的标签。

2024-04-02 18:11:00 931 1

原创 Anaconda Navigator安装教程

1.官网下载太慢了,所以我们推荐通过清华官网的清华镜像源。进行下载,选取与自己电脑系统相对应的版本进行安装。3.点开此页面即为成功。

2024-04-01 21:44:49 235

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除