Hapless1-CSDN博客

原创机器学习：主成分分析（PCA）

具体地，如果对协方差矩阵进行特征值分解，得到特征向量V={v1,v2,...,vn}和特征值λ={λ1,λ2,...,λn}，则前k个主成分可以表示为矩阵Wk=[v1,v2,...,vk]，新的低维数据表示为Y=XWk。去除异常值（Outlier Removal）：异常值可能对PCA的结果产生较大的影响，因为PCA是一种基于方差的方法，异常值的存在可能导致方差过大，从而影响主成分的计算。然后，选择要保留的主成分数量，并将选定的特征向量用于将数据投影到选定的主成分上。

2023-12-30 20:41:05 1201 1

原创机器学习：支持向量机（SVM）

通过这个超平面，我们可以对新的未标记的数据进行分类。SVM所做的工作就是找这样个超平面，能够将两个不同类别的样本划分开来，但是这种平面是不唯一的，即可能存在无数个超平面都可以将两种样本分开，那么我们如何才能确定一个分类效果最好的超平面呢？仍然以二维空间为例，假设对于变量x和y，将其映射到新空间的映射函数为φ，则在新空间中，二者分别对应φ(x)和φ(y)，他们的内积则为<φ(x),φ(y)>。幸运的是，在计算中发现，我们需要的只是两个向量在新的映射空间中的内积结果，而映射函数到底是怎么样的其实并不需要知道。

2023-12-17 23:03:49 962 1

原创机器学习：Logistc回归

在Logistic回归中，我们使用sigmoid函数将线性函数的输出映射到概率值上，然后使用损失函数来最小化预测结果与真实结果之间的差异。这里所说的是移动方向，而未提到移动量的大小。Logistic回归是一种用于处理二分类问题的机器学习算法，它通过构建一个基于输入特征的线性模型，并将其映射到0和1之间的概率值。梯度上升法基于的思想是：要找到某函数的最大值，最好的方法是沿着该函数的梯度方向探寻。对于给定的训练数据集，假设每个样本的标签都是独立同分布的，我们可以构建一个关于参数θ的似然函数L(θ)。

2023-12-01 10:55:08 490 1

原创机器学习：朴素贝叶斯

xn 的条件下，类别 y 的后验概率；朴素贝叶斯算法假设每个特征与其他特征都是相互独立的，在实际情况下可能并不成立，但这个假设使得算法的实现变得简单，并且在许多实际问题中效果良好。但在实际中，朴素贝叶斯模型的分类误差不一定比其他分类方法小，因为朴素贝叶斯模型设属性之间相互独立，这个假设在实际应用中往往是不成立的，在属性个数比较多或者属性之间相关性较大时，分类效果不好。4.对输入数据的表达形式较为敏感：对输入数据的表达形式要求较高，对特征的选择和权重的赋值比较敏感，不恰当的特征选择可能会影响分类结果。

2023-11-19 22:11:09 79

原创机器学习——决策树

具体做法是对每个非叶节点进行考察，将该节点替换为叶节点，并计算剪枝后的验证集上的性能变化，如果剪枝后性能没有显著下降，则进行剪枝操作。例如，当节点的样本数量小于一定阈值时停止划分，或者通过限制树的最大深度等方式来控制模型的复杂度。2.对于每个特征，计算划分后的条件熵（Conditional Entropy，Entropy(D|A)），即根据该特征的取值进行划分后的子集的加权平均信息熵。信息增益越大，表示划分后的数据集的不确定性减少程度越大，特征对分类的贡献越大。常见的剪枝方法有预剪枝和后剪枝。

2023-11-04 10:47:40 65 1

原创机器学习：PR曲线以及ROC曲线

其中，真正例表示模型正确地将样本分类为正类，假正例表示模型错误地将样本分类为正类，真反例表示模型正确地将样本分类为负类，假反例表示模型错误地将样本分类为负类。PR 曲线（Precision-Recall curve）主要关注的是模型在正例预测方面的性能，它将模型的精度（Precision）和召回率（Recall）之间的关系展示出来。精度越高，模型预测的正类样本中真正例的比例就越大，当精度为1时，表示所有被预测为正类的样本都是真正例，即没有假正例存在。假阳性率（FPR）表示模型将负样本错误分类为正类的比例。

2023-10-22 20:30:05 939

原创 KNN算法以及使用它实现鸢尾花分类案例

其中，X_train、y_train为训练集数据和目标变量，X_test、y_test为测试集数据和目标变量。每个样本有4个特征：萼片长度（sepal length）、萼片宽度（sepal width）、花瓣长度（petal length）和花瓣宽度（petal width），以及对应的鸢尾花种类信息。获取数据和目标变量：通过load_iris()函数得到鸢尾花数据集的所有样本特征值，存储在iris.data变量中，对应的目标变量存储在iris.target变量中。将特征名字作为列的名称。

2023-10-09 16:30:09 311 1

原创机器学习环境搭建（vscode+anaconda的安装+conda虚拟环境的激活）

机器学习环境搭建（vscode+anaconda的安装+conda虚拟环境的激活）

2023-09-26 08:42:52 150

Hapless1的博客