自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 机器学习之PCA

PCA(Principal Component Analysis)是一种常见的数据分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。它通过线性变化将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用语高维数据的降维。通俗地说,就是将高维度数据变为低纬度。例如我们通过电视看体育比赛,在电视的纯平显示器上有一个球,显示器大概包含一百万像素,而球则是由比较少的像素组成,因此我们实时将显示器上的百万像素转换成一个三维图像,也就让我们看到了运动场上球的位置,这个过程就是降维。

2024-06-12 20:47:55 916

原创 机器学习之支持向量机

支持向量:通俗的来讲,我们一般把决定决策边界的数据叫做支持向量。例如下图中,在决策边界上上的两个黑点和上的一个白点,我们通常称其为支持向量。其中,若超平面wx + b = 0(我们简记为(w,b))将训练样本正确分类,则对任一(来说,都有我们称为函数间隔,特别地,对满足的样本点,我们称之为支持向量,满足一下性质:(1)若,则落在超平面H1:wx + b = 1上;(2)若,则落在超平面H2:wx + b = -1上;

2024-06-05 18:30:50 689

原创 机器学习之逻辑回归

首先我们需要知道逻辑回归虽然名字中有回归一词,但它实际上是个二分类问题。而回归问题与二分类问题的区别就在于:回归问题解决的是连续问题,分类问题解决的是离散问题。奇妙之处在于,我们对回归问题增加一个阈值的条件,也可以将其变为分类问题。所以其实逻辑回归的实质就是将线性回归与Sigmoid函数进行相结合,从而解决分类问题。总的来说逻辑回归算法是一种统计学方法,用于解决二分类问题。尽管名字中有“回归”二字,它实际上是用来进行分类的。

2024-05-26 18:24:42 1067

原创 机器学习之朴素贝叶斯

朴素贝叶斯算法是一种基于贝叶斯定理和特征条件独立假设的分类方法。它的核心思想是,在给定目标值(类别)的情况下,特征之间相互独立。根据训练数据集,我们可以计算出每个类别的先验概率 P(Y),以及每个特征在每个类别下的条件概率 ( P(x_i|Y) ),利用这些概率来构建分类模型。而后,我们对于一个新的样本,我们使用贝叶斯定理计算每个类别的后验概率 𝑃(𝑌∣𝑋),选择具有最大后验概率的类别作为预测结果。朴素贝叶斯算法优点:(1)朴素贝叶斯算法简单易懂,易于实现。

2024-05-10 22:43:36 694 1

原创 机器学习之决策树

ID3和C4.5都是决策树算法,用于分类问题,但它们在特征选择度量、处理数据类型、对缺失值的处理以及剪枝处理方面存在一些差异。ID3对缺失值较为敏感,通常需要额外的处理手段。而C4.5能够通过多种方式处理缺失值,例如使用概率估计来替代缺失值,这提高了算法的鲁棒性。决策树的特点优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配的问题适用数据类型:数值型和标称型决策树停止划分的情况:(1)节点中的样本属于同一类别(2)属性集为空。

2024-04-27 21:58:45 650

原创 机器学习之模型评估

关注指标不同:ROC曲线使用假阳性率(FPR)作为横坐标,而PR曲线则使用召回率(Recall)作为横坐标。这意味着ROC曲线关注的是模型对负例的识别能力,而PR曲线关注的是模型对正例的识别能力。适用情况不同:在类别不平衡问题中,由于主要关心的是正例,PR曲线被广泛认为优于ROC曲线。这是因为PR曲线的两个指标都聚焦于正例,而ROC曲线同时考虑了正例和负例。因此,大家可以按照自己的需求所选择对应的曲线评估模型性能。以下为博主实现模型分类的源码(数据集下载地址在前面博文可找到)。import os。

2024-04-13 18:58:40 710

原创 K-近邻算法

KNN(K-Nearest Neighbor)算法是机器学习算法中最基础、最简单的算法之一。它既能用于分类,也能用于回归。KNN通过测量不同特征值之间的距离来进行分类。KNN算法的核心思想是:在已知训练集数据及其标签的情况下,对于一个新输入的测试数据,算法会在训练集中找到与这个测试数据最相似的K个邻居,然后根据这K个邻居的类别来决定测试数据的类别。计算距离:计算测试数据与训练集中每个数据点之间的距离。选择邻居:按照距离大小对训练数据进行排序,选择距离最小的K个数据点作为邻居。投票决策。

2024-04-01 19:44:10 812 1

原创 Anaconda安装

由于博主已经提前配置完anaconda,因此打开anaconda安装包的详细步骤就在此省略。(需要注意的是:anaconda安装步骤最后的两个learn不用打√)(1)用win+R打开命令行,输入conda --version,看是否能查看到conda的版本号。(1)首先找到电脑的系统属性(一般在系统中查询高级系统设置就能看到)(2)然后将你安装anaconda的路径新建到系统变量的path里。(2)在输入python查看python当前的版本。(3)打开后的界面如下,就为安装成功了。

2024-03-11 18:30:16 157

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除