Joshi^ ^-CSDN博客

原创机器学习——主成分分析（PCA）

在实际过程操作中，我们知道了第i个主成分的构成，那么可以根据相对应的系数进行解释，如：X1代表食品支出，X2代表住房支出，X3代表娱乐支出，X4代表医疗支出，F1为第1个主成分，构成如下：可以明显观察到，X1、X2、X4的系数较高，对于主成分的影响较大；而X3的系数较低，对主成分的影响较小。那么我们可以将第一主成分解释为：家庭必要支出。（一旦主成分无法解释，那么这次主成分分析就是失败的，可以考虑用因子分析）

2024-01-01 21:47:31 1754 1

原创机器学习——支持向量机

支持向量机是一种分类器。之所以称为”机“是因为它会产生一个二值决策的结果，即它是一种决策”机“。支持向量机是一个二分类器。当其解决多分类问题时需要用额外的方法对其进行扩展。而且SVM的效果也对优化参数和所用核函数中的参数敏感。

2023-12-18 21:24:40 941

原创机器学习——Logistic回归

Logistic回归是一种广泛应用于机器学习和数据分析中的线性分类算法。在实验过程中，我们可以通过以下步骤使用Logistic回归：1.数据预处理：包括数据清洗、特征选择、特征缩放等。2.划分数据集：将数据集划分为训练集和测试集，以便我们可以对模型进行评估。3.创建并训练Logistic回归模型4.评估模型性能：使用测试集对模型进行评估，可以使用各种指标，例如准确率、精确率、召回率等。5.调整模型参数：如果需要更好的性能，我们可以使用交叉验证和网络搜索等技术来调整模型超参数。

2023-12-04 21:21:29 858

原创机器学习——朴素贝叶斯

利用朴素贝叶斯来进行垃圾邮件分类的好处就是，朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率，并且算法也比较简单，容易实现，对于小规模的数据效果很不错。如果我们使用了样本属性真实情况其实并不是相互独立性的，那么其实这样的分类效果可能不会很好。而且需要知道先验概率，且先验概率很多时候取决于假设，假设的模型可以有很多种，因此在某些时候，会由于假设的先验模型的原因导致预测效果不佳。ln%28b%29。

2023-11-20 21:34:21 90 1

原创决策树——机器学习

学习决策树模型需要了解其构建过程、剪枝方法、评估指标和优化策略，同时需要针对实际应用场景进行灵活调整和优化，以获得更好的模型性能。

2023-11-06 21:33:05 48

原创 ROC曲线及PR曲线

跟TPR和FPR不一样的是，在PR关系中，是一个此消彼长的关系，但往往我们希望二者都是越高越好，所以PR曲线是右上凸效果越好（也有例外，有比如在风险场景当预测为1实际为0时需要赔付时，大致会要求Recall接近100%，可以损失Precision）。绘制图线同样的道理，我们要产生随机的概率，表示每个样本例子为正例的概率，然后通过这些概率进行从大到小的排序，再按此顺序逐个样本的选择阈值，大于阈值的概率的样例为正例，后面的全部为反例。ROC曲线和PR曲线的形状和性能评估指标是相关的，但并不完全相同。

2023-10-23 18:12:01 601

原创机器学习——k-近邻算法（学习记录）

一、k-近邻算法概述1.概念给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，也就是所说的k个邻居，这k个实例的多数属于某个类，就把该输入实例分类到这个类中（类似于现实生活中少数服从多数的思想k近邻算法是一种用于分类和回归的统计方法，可以说是最简单的分类算法之一，同时，也是最常用的分类算法之一。2.工作原理如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的绿色的圆表示为待分类的数据。相当于来了一个新的数据点，想求得它的类别是什么？

2023-10-09 20:40:36 60 1

原创机器学习环境配置

Anaconda是专门为了方便使用Python进行数据科学研究而建立的一组软件包，涵盖了数据科学领域常见的Python库，并且自带了专门用来解决软件环境依赖问题的conda包管理系统。主要是提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理，并且已经包含了Python和相关的配套工具。

2023-09-25 21:47:24 72 1

qq_62541359的博客