自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 数据降维——PCA:主成分分析法

目录一、PCA相关概念1. 什么是PCA?1.1 概念阐释1.2 为什么要做PCA2. 特征维度约减的概念与目的3. 主成分分析的主要步骤3.1 求出所有值的均值,然后将所有案例都减去该均值3.2求样本的协方差矩阵3.3 求得特征值和特征向量3.4 将特征值按照从大到小的顺序排序,选择其中最大的k个,及其对应特征向量3.5 将原始数据投影到选取的特征向量上3.6 输出投影后的数据集二、PCA的简单实现1. 导入库2. 选取一个二维数据3. 查看

2024-06-17 22:40:44 1055

原创 支持向量机(SVM算法)

支持向量机(SVM, support Vector Machines):二分类算法模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机当训练样本近似线性可分时,通过软间隔最大化,学习一个线性支持向量机当训练样本线性不可分时,通过核技巧和软间隔最大化,学习一个非线性支持向量机用于解决模式识别领域中的数据分类问题,属于有监督学习算法。支持向量机可以分为线性核非线性两大类。

2024-06-11 11:11:19 1370 2

原创 逻辑回归(Logistic Regression)

logistic回归是一种广义的线性回归分析模型,属于机器学习中的监督学习。是经典的分类方法,它属于对数线性模型,利用logistic回归进行分类的主要思想是根据现有的数据对分类边界线建立回归公式,以此进行分类。Logistic回归是统计学习中的经典分类方法,属于对数线性模型,所以也被称为对数几率回归。虽然是叫做回归,但其实这是一种分类算法,Logistic回归是一种线性分类器,针对的是线性可分问题。其推导过程与计算方式类似于回归的过程,但实际上主要是用来解决二分类问题(也可以解决多分类问题)。

2024-05-28 15:24:46 852

原创 朴素贝叶斯算法(Naïve Bayes)

朴素贝叶斯(Naïve Bayes, NB)算法,是一种基于贝叶斯定理与特征条件独立假设的分类方法。朴素:特征条件独立;贝叶斯:基于贝叶斯定理。属于监督学习的生成模型,实现简单,并有坚实的数学理论(即贝叶斯定理)作为支撑。在大量样本下会有较好的表现,不适用于输入向量的特征条件有关联的场景。朴素贝叶斯优缺点:优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感,由于朴素贝叶斯的“特征条件独立”特点,所以会带来一些准确率上的损失。

2024-05-14 16:00:39 895

原创 决策树 (Decision Tree)

以西瓜为例建立一个决策树模型色泽根蒂声音好坏有绿色清脆好有深绿色坏有绿色无坏无坏我们有2个输入特征,输出标签0或1,这是一个二元分类问题。输入的特征 X 采用分类值,也就是说,这些特征值只取几个值,第一个特征要么是有色泽的,要么是无色泽的;声音要么是清脆要么是沉闷。当我们有一个待测试模型时,从顶端根节点开始往下进行判断1,0抵达下一个分支直达最后一个节点判断是好瓜还是坏瓜。我们要优先选择最容易判定好坏瓜的特征作优先判断。

2024-04-29 22:09:22 813

原创 P-R曲线绘制——鸢尾花

在训练集上训练出二分类模型后我们将测试集中的数据输入模型,这时我们可以计算得到这些数据属于某个类别的概率,将这些预测概率从小到大排列,然后将分类阈值依次设为[0,1]区间中不同的概率值并计算这时的准确率和召回率,最后将这些准确率和召回率在二维坐标系中连起来就得到了ROC曲线。SVM的目标是找到一个超平面,使得不同类别的样本点最大化到该超平面的距离。P-R曲线,是指以查准率(亦称准确率)为纵轴、查全率(亦称召回率)为横轴画出的曲线,反映了查准率随查全率的变化趋势,在机器学习中常用于二分类模型的评价及选择。

2024-04-15 22:22:38 850

原创 KNN算法(k近邻算法)

存在一个样本数据集合,也称作训练样本集,并且样本集中的每个数据都存在标签,即知道样本集中每一数据与所属分类的对应关系。一般而言,我们只选择样本数据集中前k个最相似的数据,这就是KNN算法中K的由来,通常k是不大于20的整数。数据集是癌症检测数据,一共包括100行记录,第二列为癌症的结果,良性为’B‘,恶性’M‘,后面8列为肿瘤的各种数据,半径、纹理、周长、面积等。常用的距离量度方式包括:闵可夫斯基距离、欧氏距离、曼哈顿距离、切比雪夫距离、余弦距离。一、KNN算法的概述。一、KNN算法的概述。

2024-04-01 20:48:50 1477

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除