- 博客(8)
- 收藏
- 关注
原创 机器学习——主成分分析(PCA)
在实际过程操作中,我们知道了第i个主成分的构成,那么可以根据相对应的系数进行解释,如:X1代表食品支出,X2代表住房支出,X3代表娱乐支出,X4代表医疗支出,F1为第1个主成分,构成如下:可以明显观察到,X1、X2、X4的系数较高,对于主成分的影响较大;而X3的系数较低,对主成分的影响较小。那么我们可以将第一主成分解释为:家庭必要支出。(一旦主成分无法解释,那么这次主成分分析就是失败的,可以考虑用因子分析)
2024-01-01 21:47:31 1754 1
原创 机器学习——支持向量机
支持向量机是一种分类器。之所以称为”机“是因为它会产生一个二值决策的结果,即它是一种决策”机“。支持向量机是一个二分类器。当其解决多分类问题时需要用额外的方法对其进行扩展。而且SVM的效果也对优化参数和所用核函数中的参数敏感。
2023-12-18 21:24:40 941
原创 机器学习——Logistic回归
Logistic回归是一种广泛应用于机器学习和数据分析中的线性分类算法。在实验过程中,我们可以通过以下步骤使用Logistic回归:1.数据预处理:包括数据清洗、特征选择、特征缩放等。2.划分数据集:将数据集划分为训练集和测试集,以便我们可以对模型进行评估。3.创建并训练Logistic回归模型4.评估模型性能:使用测试集对模型进行评估,可以使用各种指标,例如准确率、精确率、召回率等。5.调整模型参数:如果需要更好的性能,我们可以使用交叉验证和网络搜索等技术来调整模型超参数。
2023-12-04 21:21:29 858
原创 机器学习——朴素贝叶斯
利用朴素贝叶斯来进行垃圾邮件分类的好处就是,朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率,并且算法也比较简单,容易实现,对于小规模的数据效果很不错。如果我们使用了样本属性真实情况其实并不是相互独立性的,那么其实这样的分类效果可能不会很好。而且需要知道先验概率,且先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候,会由于假设的先验模型的原因导致预测效果不佳。ln%28b%29。
2023-11-20 21:34:21 90 1
原创 决策树——机器学习
学习决策树模型需要了解其构建过程、剪枝方法、评估指标和优化策略,同时需要针对实际应用场景进行灵活调整和优化,以获得更好的模型性能。
2023-11-06 21:33:05 48
原创 ROC曲线及PR曲线
跟TPR和FPR不一样的是,在PR关系中,是一个此消彼长的关系,但往往我们希望二者都是越高越好,所以PR曲线是右上凸效果越好(也有例外,有比如在风险场景当预测为1实际为0时需要赔付时,大致会要求Recall接近100%,可以损失Precision)。绘制图线同样的道理,我们要产生随机的概率,表示每个样本例子为正例的概率,然后通过这些概率进行从大到小的排序,再按此顺序逐个样本的选择阈值,大于阈值的概率的样例为正例,后面的全部为反例。ROC曲线和PR曲线的形状和性能评估指标是相关的,但并不完全相同。
2023-10-23 18:12:01 601
原创 机器学习——k-近邻算法(学习记录)
一、k-近邻算法概述1.概念给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,也就是所说的k个邻居,这k个实例的多数属于某个类,就把该输入实例分类到这个类中(类似于现实生活中少数服从多数的思想k近邻算法是一种用于分类和回归的统计方法,可以说是最简单的分类算法之一,同时,也是最常用的分类算法之一。2.工作原理如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的绿色的圆表示为待分类的数据。相当于来了一个新的数据点,想求得它的类别是什么?
2023-10-09 20:40:36 60 1
原创 机器学习环境配置
Anaconda是专门为了方便使用Python进行数据科学研究而建立的一组软件包,涵盖了数据科学领域常见的Python库,并且自带了专门用来解决软件环境依赖问题的conda包管理系统。主要是提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。
2023-09-25 21:47:24 72 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人