自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 主成分分析

在这个协方差矩阵中,对角线的值为每一个变量的方差,其它值为每两个变量的协方差。原变量与特征向量的乘积(对原始变量的线性组合)即为新变量(回顾下线性代数中的矩阵乘法);新变量的协方差矩阵为对角协方差矩阵且对角线上的方差由大到小排列;降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。假设A是一个m*n的矩阵,那么得到的U是一个m*m的方阵,U里面的正交向量被称为左奇异向量。

2024-01-01 21:44:46 308

原创 支持向量机

支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,它通过在样本空间中找到一个划分超平面,将不同类别的样本分开,同时使得两个点集到此平面的最小距离最大,两个点集中的边缘点到此平面的距离最大。也就是我们需要找到能够分离数据的最大间隔的这个分隔点,随着维度的上升,可以从一条直线上升到平面、超平面。

2023-12-18 19:27:38 18 1

原创 logistic回归

从图形上看,sigmoid曲线就像是被掰弯捋平后的线性回归直线,将取值范围(−∞,+∞)映射到(0,1) 之间,更适宜表示预测的概率,即事件发生的“可能性”。我们拟合模型就是一个调整参数的过程,于是我们就可以在似然函数最大化的时候取得参数,这个参数就是我们所需要的未知的模型参数。在实际生活中,处理许多问题时得到的样本都是0或1的情况,而没有一个准确的取值,这样一来在我们进行模型拟合的时候就会出现效果非常差的情况,如下图所示。问题也随之而来,这个函数是不连续不可微的,这样就没有办法较好的进行拟合。

2023-12-04 20:30:12 20

原创 朴素贝叶斯分类垃圾邮件处理

在求先验概率时,某个事件B与A没有同时发生过,则将其概率记为0,这样在计算连续型概率时便会将概率置零,这样明显是不符合客观事实的,因此为了解决这个问题,我们引入Laplace校准(这就引出了我们的拉普拉斯平滑),它的思想非常简单,就是对每个类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。这里的A就是根据历史经验得出的能够对B进行分类的概率,即是经验所得,也被称为先验概率。而与之相反的就是后验概率,是当知道了所有样本后,得到B的概率。

2023-11-20 20:44:20 27 1

原创 初学决策树

所谓的信息增益是指特征A对训练数据集D的信息增益g(D,A)定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。简单的理解也就是该特征对类进行预测的影响首先是对信息熵的计算其次是对信息增益的计算挑选最优特征,这个在创建决策树的时候需要使用接下来就是创建决策树的主体在训练后进行预测我们看一下测试结果。

2023-11-06 19:43:26 21

原创 PR曲线和ROC曲线

PR曲线展示的是Precision vs Recall的曲线,PR曲线与ROC曲线的相同点是都采用了TPR (Recall),都可以用AUC来衡量分类器的效果。(2)如果有多份数据且存在不同的类别分布,比如信用卡欺诈问题中每个月正例和负例的比例可能都不相同,这时候如果只想单纯地比较分类器的性能且剔除类别分布改变的影响,则ROC曲线比较适合,因为类别分布改变可能使得PR曲线发生变化时好时坏,这种时候难以进行模型比较;反之,如果想测试不同类别分布下对分类器的性能的影响,则PR曲线比较适合。

2023-10-23 21:01:35 80 1

原创 K近邻算法学习

简单解释一下,欧氏距离就是在多维空间中直接计算两点之间的距离,可以参考平面直角坐标系中计算的两点间距离,而曼哈顿距离是平面直角坐标系中两点的X,Y的差值和,也就是X2-X1,再计算Y2-Y1,得到的就是只能通过水平和竖直方向上的移动到达的第二个点的距离,也就是曼哈顿距离。这里用特征归一化后的矩阵,取一部分进行测试,数量为m*0.1,得到错误率为百分之4,但是当m*0.05时会变成百分之0.000,我的理解是存在偏差,而不是完全没有误差,因为测试样例太少,测试出来都符合,所以为0。创建分类器给后续进行使用。

2023-10-09 21:55:25 34

原创 anaconda安装

安装anaconda环境

2023-09-25 22:00:06 25 1

原创 了解深度学习(一)

一、logistic回归 已知输入x,参数w和b,预测出y帽的值,以此来表示预测事件的概率。其中sigmoid函数为激活函数。 损失函数是在单个训练样本中定义的用以衡量算法的运行情况,用来表示预测值y帽与y实际值有多接近的函数,而成本函数是衡量算法在全体训练样本上的表现,一般为所有样本的损失函数的总额除以样本数量。 logistic回归可以被看为一个很小的神经网络。 二、梯度下降法 梯度下降法用来训练得到使成本函数尽可能小的参数w和b 更新参数使成本函数持续往下降最快的方向走...

2022-01-30 21:51:24 1246

转载 初学 机器学习分类与回归问题+ 深度学习各超参数

分类和回归的区别在于输出变量的类型。 定量输出称为回归,或者说是连续变量预测; 定性输出称为分类,或者说是离散变量预测。 举个例子: 预测明天的气温是多少度,这是一个回归任务; 预测明天是阴、晴还是雨,就是一个分类任务。 用自己的话来理解,回归问题的内容是未知的,而分类问题内容已知,是在已知内容中对数据进行采集,建立模型建立模型映射关系,以此预测任务,达到解决问题的目的。回归问题则不同,回归问题是在未知内容中进行处理。但是二者本质都是一致的,并且二者可以相互转化。可以将回归问题和分类问题互相转化,即分类模

2021-11-13 16:14:07 139

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除