自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 主成分分析(PCA)

主成分分析(Principal Component Analysis,简称PCA)是一种无监督学习算法,是一种简化数据集的技术,主要用于降维和数据压缩。它可以将高维数据映射到低维空间,通过数据投影的线性转化(正交变换),用较少的数据集维数,保留数据集中对方差贡献最大的特征,也就是保留数据的主要特征。具体来说,PCA会计算原始数据的协方差矩阵,然后找到协方差矩阵的特征向量和特征值。特征向量是新空间的基向量,特征值描述了每个特征向量的重要程度。

2023-12-19 17:24:10 814 1

原创 支持向量机

换句话说,由于支持向量计算法的最终决策函数只由少数的支持向量所确定,所以计算的复杂性取决于支持向量的数目,而不是样本空间的维数。如果n较小,而m较大,例如n在1-1000之间,而m大于50000,则使用支持向量机会非常慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或不带核函数的支持向量机。经典的支持向量机算法只给出了二分类的算法,而在数据挖掘的实际应用中,一般要解决多分类问题,但支持向量机对于多分类问题解决效果并不理想。w是参数,垂直与决策边界,x是特征向量,与数据集有关,b是截距。

2023-12-18 21:34:58 980

原创 logistic回归分类

因此,为了实现Logistic回归分类器,我们可以在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代人Sigmoid函数中,进而得到-一个范围在0~1之间的数值。梯度上升法基本的思想是:要找到某函数的 最大值,最好的方法是沿着该函数的梯度方向探寻。逻辑回归的优点:直接对分类的可能性建模,无需事先假设数据分布,避免了假设分布不准确带来的问题,不仅预测出类别,还可得到近似概率预测。我们最经常听到的应该是梯度下降算法,它与这里的梯度上升算法是一样的,只是公式中的加法需要变成减法。

2023-12-04 21:06:25 45

原创 朴素贝叶斯算法实现垃圾邮箱分类

朴素贝叶斯算法优缺点:优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感;由于朴素贝叶斯的“朴素”特点,所以会带来一些准确率上的损失注意:使用拉普拉斯平滑解决零概率问题;对乘积结果取自然对数避免下溢出问题,采用自然对数进行处理不会有任何损失。x_ixi。

2023-11-20 16:49:17 256 1

原创 机器学习——决策树

dataSet[0]代表第一个样本bestInfoGain = 0.0 #信息增益uniqueVals = set(featList) #值去重newEntropy = 0.0 #信息熵for value in uniqueVals: #计算信息增益print("第%d个特征的信息增益为%.1f"%(i,infoGain))if (infoGain > bestInfoGain): #选出最大的信息增益return classList[0] #当所有类型都相同时 返回这个类型。

2023-11-06 22:06:16 68

原创 PR曲线和ROC曲线

5.如果有多份数据且存在不同的类别分布,比如信用卡欺诈问题中每个月正例和负例的比例可能都不相同,这时候如果只想单纯地比较分类器的性能且剔除类别分布改变的影响,则ROC曲线比较适合,因为类别分布改变可能使得PR曲线发生变化时好时坏,这种时候难以进行模型比较;反之,如果想测试不同类别分布下对分类器的性能的影响,则PR曲线比较适合。7.最后可以根据具体的应用,在曲线上找到最优的点,得到相对应的precision,recall,f1 score等指标,去调整模型的阈值,从而得到一个符合具体应用的模型。

2023-10-23 21:31:48 189 1

原创 k临近算法及实例

k-近邻算法是最简单最有效的算法,k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。举个例子: 如图所示假设坐标图中有3种颜色的图案,其中有一个白色的图案,要判断它应该属于哪种颜色,取决于它的坐标位置,经过计算它离红色图案的坐标位置更近,所以它最后属于红色类型。KNN 可以说是最简单的分类算法之一,同时,它也是最常用的分类算法之一。数字图像的形式如下所示,文件以数字的标签命名,下面这个数字图像的命名为“0_1.txt”,表示数字0的第1个样本。3)选取与当前点距离最小的k个点。

2023-10-09 21:18:54 55 1

原创 pytorch和vscode安装过程中的问题

安装OpenCV时,在vscode终端输入>pip install -i https://pypi.tuna.tsinghua.edu.cn/simple,显示error,以为应该在anaconda中输入,结果仍然是error。搜索后发现原因是install 后面没有参数,也就是说没有给想要安装的包,可能是因为后面的网站链接写错了,或者是网站的资源搬迁了,到资源网站上检查一下,修改成正确的资源地址即可。上网查找后发现,在复制代码时,我复制的是。检查OpenCV时,运行过慢。,所以又卸载安装了一遍。

2023-09-25 21:46:20 47 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除