机器学习
文章平均质量分 78
Carrie_Lei
这个作者很懒,什么都没留下…
展开
-
项目-机器学习分析金融风控-贷款违约预测(未完)
赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。原创 2024-09-28 22:17:58 · 313 阅读 · 0 评论 -
项目-机器学习分析电信用户的流失原因
来自datafountain上的《电信客户流失数据》https://sso.datafountain.cn/原创 2024-09-28 21:38:20 · 910 阅读 · 1 评论 -
机器学习-faiss
(Facebook AI Similarity Search)是一个由 Facebook 开发的开源库,用于高效地进行大规模相似性搜索和稠密向量(dense vector)聚类。它主要用于处理机器学习中常见的高维向量,并且可以在大规模数据集中快速找到相似向量。原创 2024-09-22 12:01:13 · 425 阅读 · 0 评论 -
机器学习13-均值漂移
均值漂移是一种强大的聚类算法,可以自动确定簇的数量,并适用于处理任意形状的簇。它的主要思想是通过迭代计算数据点的均值并将其移动到密度较高的区域,从而发现数据中的簇。是一种基于密度的聚类算法,用于发现数据中的簇。:对于每个样本点,计算该点在其邻域内的所有点的均值。这个均值是加权平均,其中权重是根据距离样本点的远近来决定的,距离越近,权重越高。数据点的最终位置将会是簇的中心点(均值点),而属于同一簇的点会被分配到相同的中心点。:对于数据集中的每个样本点,选择一个半径(带宽),用来确定点的邻域。原创 2024-09-10 09:00:55 · 341 阅读 · 0 评论 -
机器学习-样本间的相似度
不同的相似度度量方法适用于不同的应用场景,选择合适的方法可以更好地描述样本间的相似性。常用的如欧氏距离和余弦相似度在图像处理和文本分析中广泛应用,而杰卡德相似度则常用于离散集合的比较。原创 2024-09-06 17:57:31 · 627 阅读 · 0 评论 -
机器学习-超参数
超参数的正确选择可以极大提升模型的性能。通过网格搜索、随机搜索等方法对超参数进行调优,能够帮助找到最优的组合,从而提升模型在测试集上的表现。原创 2024-09-06 17:31:46 · 1056 阅读 · 0 评论 -
机器学习-验证曲线和学习曲线
验证曲线帮助选择最优的超参数,通过观察模型性能随超参数变化的曲线,可以找到平衡过拟合和欠拟合的最佳点。学习曲线帮助评估模型随数据量变化的拟合情况,指导我们是否需要更多数据或调整模型复杂度。原创 2024-09-06 17:19:06 · 396 阅读 · 0 评论 -
机器学习-决策树特征选择
信息增益:用于分类问题,基于熵的减少,适合离散特征。基尼系数:用于分类问题,基于纯度的提升,常用于 CART 算法。方差减少:用于回归问题,基于方差的减少,适合连续目标变量。选择哪个标准取决于具体问题是分类还是回归。分类树常用信息增益或基尼系数,回归树通常使用方差减少。原创 2024-09-06 14:36:20 · 592 阅读 · 0 评论 -
机器学习-Logistic Regression实例
以下是一个使用实现的分类的例子,使用鸢尾花(Iris)数据集进行演示。原创 2024-09-06 13:59:04 · 334 阅读 · 0 评论 -
机器学习笔记一-数据预处理
数据预处理是模型构建过程中至关重要的一步。高质量的预处理能帮助模型更好地理解数据,从而提升模型性能。不同类型的数据和任务可能需要不同的预处理方法,因此在具体项目中应灵活应用这些技术。原创 2024-08-20 07:30:15 · 785 阅读 · 0 评论 -
机器学习笔记13- 均值漂移
均值漂移是一种强大的聚类算法,可以自动确定簇的数量,并适用于处理任意形状的簇。它的主要思想是通过迭代计算数据点的均值并将其移动到密度较高的区域,从而发现数据中的簇。是一种基于密度的聚类算法,用于发现数据中的簇。:对于每个样本点,计算该点在其邻域内的所有点的均值。这个均值是加权平均,其中权重是根据距离样本点的远近来决定的,距离越近,权重越高。数据点的最终位置将会是簇的中心点(均值点),而属于同一簇的点会被分配到相同的中心点。:对于数据集中的每个样本点,选择一个半径(带宽),用来确定点的邻域。原创 2024-08-22 07:44:50 · 172 阅读 · 0 评论 -
机器学习笔记六-朴素贝叶斯
朴素贝叶斯是一种简单而高效的分类算法,特别适用于文本分类和高维数据。尽管它的独立性假设可能在现实中不成立,但在许多实际应用中,朴素贝叶斯仍能表现出色。它的实现简单,计算复杂度低,适合处理大规模数据集,是许多应用中的首选模型之一。原创 2024-08-20 13:04:00 · 1016 阅读 · 0 评论 -
机器学习九-特征选择的统计方法
使用统计方法进行特征选择可以显著提高模型的性能和泛化能力。不同的统计方法适用于不同类型的数据和任务,通过结合多种方法,可以更有效地剔除冗余或不相关的特征,进而提升模型的表现。在实际应用中,通常将这些方法与模型评估相结合,以确保所选择的特征能够为最终模型带来实际的性能提升。原创 2024-08-21 07:50:05 · 523 阅读 · 0 评论 -
机器学习笔记七-模型评估指标
模型评估指标是用于衡量机器学习模型性能的标准,选择合适的指标能够帮助我们理解模型的表现,特别是在分类、回归或聚类任务中。原创 2024-08-20 17:06:30 · 728 阅读 · 0 评论 -
机器学习笔记三-检测异常值
不同的方法适用于不同类型的数据和异常值检测场景。在实际应用中,通常结合多种方法进行异常值检测,并根据业务需求和数据特点采取适当的处理策略。原创 2024-08-20 09:20:48 · 523 阅读 · 0 评论 -
机器学习十-欠拟合和过拟合
在构建模型时,需要在欠拟合和过拟合之间找到平衡,既要确保模型足够复杂以捕捉数据中的模式,又要防止模型过于复杂而导致过拟合。:欠拟合和过拟合是模型训练过程中常见的两个极端问题。理解它们的表现、原因及解决方法,对于构建泛化能力强的模型至关重要。指的是模型对训练数据学得过多,甚至学习了数据中的噪声,导致模型在训练集上表现良好,但在测试集上的表现较差。指的是模型对训练数据的学习不足,未能捕捉数据中的潜在规律或结构,导致模型在训练集和测试集上的表现都很差。是常见的两个问题,影响模型的性能和泛化能力。原创 2024-08-21 18:55:51 · 237 阅读 · 0 评论 -
机器学习11-线性可分与线性不可分
是机器学习中用来描述数据集特性的重要概念,尤其是在分类任务中。这两个概念帮助确定是否可以使用线性分类器(如线性支持向量机、线性回归等)进行有效分类。例如,在二维空间中,如果绿色点和红色点混杂在一起,没有一条直线能够将它们完全分开,则数据集是线性不可分的。例如,在二维空间中,如果绿色点和红色点可以被一条直线完全分隔开,则数据集是线性可分的。原创 2024-08-21 21:27:47 · 320 阅读 · 0 评论 -
机器学习八-模型部署
模型部署是将机器学习成果应用到实际业务中的关键步骤。选择合适的部署方式、工具和环境,结合持续监控和维护,可以确保模型在生产中稳定、高效地运行。原创 2024-08-20 17:10:42 · 599 阅读 · 0 评论 -
机器学习笔记五-SVM
SVM 是一种强大的分类和回归工具,尤其在高维空间中表现优异。它通过寻找最大化边距的超平面来实现对数据的分类,并可以通过核函数扩展到非线性问题。尽管在处理大型数据集时可能计算复杂度较高,但通过适当的参数调优,SVM 可以在许多实际应用中取得良好的效果。原创 2024-08-20 12:59:24 · 702 阅读 · 0 评论 -
机器学习笔记四-决策树
决策树是一种强大且易于理解的模型,适用于各种分类和回归任务。然而,决策树也有过拟合和对噪声敏感的缺点,因此在实际应用中通常会与其他模型结合使用(如随机森林、梯度提升树),以提高模型的鲁棒性和准确性。原创 2024-08-20 12:55:31 · 491 阅读 · 0 评论 -
机器学习笔记-集合算法
集合算法能够有效提升模型的预测能力,降低过拟合风险,同时兼具强大的灵活性,适用于各种场景。常见的集合算法包括 Bagging、Boosting、Stacking、Voting 等,在实际应用中常用于分类和回归任务。原创 2024-09-06 10:24:41 · 902 阅读 · 0 评论 -
机器学习-GBDT实例
以下是一个使用梯度提升决策树(Gradient Boosting Decision Trees, GBDT)进行分类的简单例子。我们将使用 Python 中的库,并使用经典的鸢尾花(Iris)数据集。原创 2024-09-06 10:26:29 · 535 阅读 · 0 评论 -
机器学习12-聚类
层次聚类创建一个树状结构(树形图),可以是自底向上的凝聚方法(agglomerative clustering)或自顶向下的分裂方法(divisive clustering)。:Mean Shift 聚类算法通过计算数据点的均值,并将均值作为新的点的位置,逐步移动点到密度最大的区域。:DBSCAN 聚类算法基于密度的概念,将密度相连的点分为同一簇,并将低密度区域的点标记为噪声点。:能够发现任意形状的簇,并且不需要预先指定簇的数量。:不需要预先指定簇的数量,能够产生簇的层次结构。(一个簇的最小样本数)。原创 2024-08-21 21:28:47 · 591 阅读 · 0 评论 -
机器学习-AdaBoost实例
以下是使用AdaBoost算法进行分类的一个简单例子,采用 Python 中的库。我们将使用经典的鸢尾花(Iris)数据集,并通过AdaBoost结合决策树分类器来进行分类。原创 2024-09-06 10:25:39 · 956 阅读 · 0 评论 -
机器学习笔记二-回归
是统计学和机器学习中的一种基本方法,用于建模变量之间的关系,特别是用一个或多个自变量(输入变量)来预测一个因变量(输出变量)的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质,可以使用不同类型的回归方法。原创 2024-08-20 08:26:13 · 1131 阅读 · 0 评论 -
机器学习-Random Forest实例
下面是一个使用随机森林(Random Forest)进行分类的示例,使用 Python 中的库。我们将继续使用经典的鸢尾花(Iris)数据集进行演示。原创 2024-09-06 10:27:20 · 259 阅读 · 0 评论