自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 PCA(主成成分分析)

PCA(Principal Components Analysis)即主成分分析,是一种常用的数据分析手段,是图像处理中经常用到的降维方法。对于一组不同维度之间可能存在线性相关关系的数据,PCA能够把这组数据通过正交变换变成各个维度之间线性无关的数据,经过PCA处理的数据中的各个样本之间的关系往往更直观,所以它是一种非常常用的数据分析和预处理工具。PCA处理之后的数据各个维度之间是线性无关的,通过剔除方差较小的那些维度上的数据,我们可以达到数据降维的目的。

2024-06-15 16:04:33 665

原创 支持向量机

SVM使用准则:n 为特征数, m为训练样本数。1.如果相较于m而言,n要大许多,即训练集数据量不够支持我们训练一个复杂的非线性模型,我们选用逻辑回归模型或者不带核函数的支持向量机。2.如果n较小,而且m大小中等,例如n在 1-1000 之间,而m在10-10000之间,使用高斯核函数的支持向量机。3.如果n较小,而m较大,例如n在1-1000之间,而𝑚大于50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。

2024-06-11 14:57:13 551

原创 逻辑回归(logistic回归)

Logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w’x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w’x+b作为因变量,即y =w’x+b,而logistic回归则通过函数L将w’x+b对应一个隐状态p,p =L(w’x+b),然后根据p 与1-p的大小决定因变量的值。

2024-05-29 15:16:51 1094

原创 朴素贝叶斯

全概率:全概率公式为概率论中的重要公式,它将对一复杂事件A的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。并且P(Bi)大于0,则对任一事件A有P(A)=P(A|B1)P(B1) + P(A|B2)P(B2) + ... + P(A|Bn)P(Bn)。其分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。对于给出的待分类样本,算法会求解在此样本出现的条件下各个类别出现的概率,并判断属于概率最大的那个类别。

2024-05-14 19:03:56 634 2

原创 决策树的基本

决策树学习的关键在于如何选择最优的划分属性,所谓的最优划分属性,对于二元分类而言,就是尽量使划分的样本属于同一类别,即“纯度”最高的属性。信息增益准则对可取数目较多的属性有所偏好(典型代表ID3算法),而增益率准则(CART)则对可取数目较少的属性有所偏好,但CART进行属性划分时候不再简单地直接利用增益率尽心划分,而是采用一种启发式规则)(只要是使用了信息增益,都有这个缺点,如RF)。总结:Gini(D)越小,数据集D的纯度越高,因此在选择划分属性时,选择使得划分后基尼指数最小的属性作为最优划分属性。

2024-04-28 23:02:49 1306

原创 分类算法的评估指标

机器学习中常用的分类评估算法包括准确率、召回率、F1分数和精确率等。以下是这些算法的优缺点:1. 准确率(Accuracy):- 优点:直观易懂,是分类模型性能的最基本度量,适用于类别平衡的情况。- 缺点:当数据集高度不平衡时,高准确率可能掩盖了对少数类的识别能力不足。2. 召回率(Recall):- 优点:关注模型对正类样本的识别能力,对于需要尽可能减少漏报的场景(如医疗诊断)非常有用。- 缺点:召回率高可能伴随着较多的误报,即低精确率。

2024-04-16 12:38:46 407

原创 KNN算法--约会网站(机器学习实战例子)

机器学习算法一个很重要的工作就是评估算法的正确率,通常我们只提供已有数据的90%作为训练样本来训练分类器,而使用其金的10%数据去测试分类器,检测分类器的正确率。需要注意的是,10%的测试数据应该是随机选择的,由于海伦提供的数据并没有按照特定目的来排序,所以我们可以随意选择10%数据而不影响其随机性。对于分类器来说,错误率就是分类器给出错误结果的次数除以测试数据的总数,完美分类器的错误率为0,而错误率为1.0的分类器不会给出任何正确的分类结果。而K值较大时,模型可能会过于简化,失去对数据细节的捕捉能力。

2024-04-01 21:42:13 702

原创 安装vscode和anaconda过程

1.鼠标右击【Anaconda3py2023(64bit)】压缩包(win11及以上系统需先点击“显示更多选项”】选择【解压到 Anaconda3py2023(64bit)】。10.创建桌面启动快捷方式:点击桌面任务栏中的【开始图标】,点击>所有应用>展开Anaconda3文件夹,将【Anaconda Navigator】拖到电脑桌面。6.修改路径地址中的首字符C可更改软件安装位置(如:将C改为D表示安装到D盘),点【Next】2.打开解压后的文件夹,鼠标右击【Setup】选择【以管理员身份运行】。

2024-03-18 16:09:18 270

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除