自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 机器学习:主成分分析(PCA)

具体地,如果对协方差矩阵进行特征值分解,得到特征向量V={v1​,v2​,...,vn​}和特征值λ={λ1​,λ2​,...,λn​},则前k个主成分可以表示为矩阵Wk​=[v1​,v2​,...,vk​],新的低维数据表示为Y=XWk​。去除异常值(Outlier Removal):异常值可能对PCA的结果产生较大的影响,因为PCA是一种基于方差的方法,异常值的存在可能导致方差过大,从而影响主成分的计算。然后,选择要保留的主成分数量,并将选定的特征向量用于将数据投影到选定的主成分上。

2023-12-30 20:41:05 1201 1

原创 机器学习:支持向量机(SVM)

通过这个超平面,我们可以对新的未标记的数据进行分类。SVM所做的工作就是找这样个超平面,能够将两个不同类别的样本划分开来,但是这种平面是不唯一的,即可能存在无数个超平面都可以将两种样本分开,那么我们如何才能确定一个分类效果最好的超平面呢?仍然以二维空间为例,假设对于变量x和y,将其映射到新空间的映射函数为φ,则在新空间中,二者分别对应φ(x)和φ(y),他们的内积则为<φ(x),φ(y)>。幸运的是,在计算中发现,我们需要的只是两个向量在新的映射空间中的内积结果,而映射函数到底是怎么样的其实并不需要知道。

2023-12-17 23:03:49 962 1

原创 机器学习:Logistc回归

在Logistic回归中,我们使用sigmoid函数将线性函数的输出映射到概率值上,然后使用损失函数来最小化预测结果与真实结果之间的差异。这里所说的是移动方向,而未提到移动量的大小。Logistic回归是一种用于处理二分类问题的机器学习算法,它通过构建一个基于输入特征的线性模型,并将其映射到0和1之间的概率值。梯度上升法基于的思想是:要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。对于给定的训练数据集,假设每个样本的标签都是独立同分布的,我们可以构建一个关于参数θ的似然函数L(θ)。

2023-12-01 10:55:08 490 1

原创 机器学习:朴素贝叶斯

xn 的条件下,类别 y 的后验概率;朴素贝叶斯算法假设每个特征与其他特征都是相互独立的,在实际情况下可能并不成立,但这个假设使得算法的实现变得简单,并且在许多实际问题中效果良好。但在实际中,朴素贝叶斯模型的分类误差不一定比其他分类方法小,因为朴素贝叶斯模型设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。4.对输入数据的表达形式较为敏感: 对输入数据的表达形式要求较高,对特征的选择和权重的赋值比较敏感,不恰当的特征选择可能会影响分类结果。

2023-11-19 22:11:09 79

原创 机器学习——决策树

具体做法是对每个非叶节点进行考察,将该节点替换为叶节点,并计算剪枝后的验证集上的性能变化,如果剪枝后性能没有显著下降,则进行剪枝操作。例如,当节点的样本数量小于一定阈值时停止划分,或者通过限制树的最大深度等方式来控制模型的复杂度。2.对于每个特征,计算划分后的条件熵(Conditional Entropy,Entropy(D|A)),即根据该特征的取值进行划分后的子集的加权平均信息熵。信息增益越大,表示划分后的数据集的不确定性减少程度越大,特征对分类的贡献越大。常见的剪枝方法有预剪枝和后剪枝。

2023-11-04 10:47:40 65 1

原创 机器学习:PR曲线以及ROC曲线

其中,真正例表示模型正确地将样本分类为正类,假正例表示模型错误地将样本分类为正类,真反例表示模型正确地将样本分类为负类,假反例表示模型错误地将样本分类为负类。PR 曲线(Precision-Recall curve)主要关注的是模型在正例预测方面的性能,它将模型的精度(Precision)和召回率(Recall)之间的关系展示出来。精度越高,模型预测的正类样本中真正例的比例就越大,当精度为1时,表示所有被预测为正类的样本都是真正例,即没有假正例存在。假阳性率(FPR)表示模型将负样本错误分类为正类的比例。

2023-10-22 20:30:05 939

原创 KNN算法以及使用它实现鸢尾花分类案例

其中,X_train、y_train为训练集数据和目标变量,X_test、y_test为测试集数据和目标变量。每个样本有4个特征:萼片长度(sepal length)、萼片宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width),以及对应的鸢尾花种类信息。获取数据和目标变量:通过load_iris()函数得到鸢尾花数据集的所有样本特征值,存储在iris.data变量中,对应的目标变量存储在iris.target变量中。将特征名字作为列的名称。

2023-10-09 16:30:09 311 1

原创 机器学习环境搭建(vscode+anaconda的安装+conda虚拟环境的激活)

机器学习环境搭建(vscode+anaconda的安装+conda虚拟环境的激活)

2023-09-26 08:42:52 150

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除