机器学习
文章平均质量分 88
机器学习
金戈鐡馬
这个作者很懒,什么都没留下…
展开
-
详解“协方差”与“相关系数”
因为要对比不同变量之间的相关性,既然是对比,就要要消除量纲的影响,因为不同特征之间的量纲可能是不同的,例如,房屋的价格可能是几千或者几万,房间的个数一般都是在10以内,房屋的面积一般在100左右,如果我们要对比这三者之间的相关性,例如,Cov(房屋的面积,房屋的价格)和Cov(房屋的面积,房间个数),只计算协方差可能不行,因为不是一个量纲。由图可见,商品房的销售面积随着城市化进程的发展而增长,说明两者是正相关的,所以,有的城市为了卖房,会大力搞城市建设,建地铁,搞公园,老城区拆迁等有效措施。原创 2023-11-20 11:33:42 · 734 阅读 · 0 评论 -
机器学习中的概率与统计知识点汇总
我相信你在某个时候已经了解了概率。我们在现实生活中做决定时也会不自觉地使用它。如果您认为自己最有可能在您试图做出的决定中取得成功,那么您就会去做。否则,你不会。这是一个有趣的研究领域,但有时也很棘手。因此,在本文的这一部分,让我们回顾一下什么是概率,并向您介绍“随机变量”的概念。假设您手上有一张牌。而你即将卡片抛到地上。卡片躺在地上时正面朝上的概率是多少?概率在现实生活中通常用 % 表示(比如 80% 的下雨几率),但是当我们在数学中处理概率时,我们通常用小数来表示它们(例如 0.5 表示 50%)。原创 2023-11-28 00:41:14 · 309 阅读 · 0 评论 -
常见的六大聚类算法
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/Katherine_hsr/article/details/79382249K-Means(K均值)聚类算法步骤:(1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预...转载 2020-01-10 20:56:51 · 305 阅读 · 0 评论 -
使用Python从零实现多分类SVM
本文将首先简要概述支持向量机及其训练和推理方程,然后将其转换为代码以开发支持向量机模型。之后然后将其扩展成多分类的场景,并通过使用Sci-kit Learn测试我们的模型来结束。支持向量机的目标是拟合获得最大边缘的超平面(两个类中最近点的距离)。可以直观地表明,这样的超平面(A)比没有最大化边际的超平面(B)具有更好的泛化特性和对噪声的鲁棒性。为了实现这一点,SVM通过求解以下优化问题找到超平面的W和b:它试图找到W,b,使最近点的距离最大化,并正确分类所有内容(如y取±1的约束)。原创 2023-11-11 10:07:30 · 852 阅读 · 0 评论 -
详解机器学习最优化算法
对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,小编将对机器学习中所使用的优化算法做一个全面的总结,并理清它们直接的脉络关系,帮你从全局的高度来理解这一部分知识。原创 2023-11-09 11:41:43 · 573 阅读 · 0 评论 -
ROC 曲线详解
ROC 曲线是一种坐标图式的分析工具,是由二战中的电子和雷达工程师发明的,发明之初是用来侦测敌军飞机、船舰,后来被应用于医学、生物学、犯罪心理学。如今,ROC 曲线已经被广泛应用于机器学习领域的模型评估,说到这里就不得不提到 Tom Fawcett 大佬,他一直在致力于推广 ROC 在机器学习领域的应用,他发布的论文《An introduction to ROC analysis》[1]更是被奉为 ROC 的经典之作(引用 2.2w 次),原创 2023-11-12 12:01:17 · 1571 阅读 · 1 评论 -
回归模型原理总结及代码实现
本文将介绍回归模型算法,并总结了一些常用的除线性回归模型之外的模型,其中包括一些单模型及集成学习器。保序回归、多项式回归、多输出回归、多输出K近邻回归、决策树回归、多输出决策树回归、AdaBoost回归、梯度提升决策树回归、人工神经网络、随机森林回归、多输出随机森林回归、XGBoost回归。需要面试或者需要总体了解/复习机器学习回归模型的小伙伴可以通读下本文,理论总结加代码实操,有助于理解模型。原创 2023-11-07 18:51:39 · 995 阅读 · 1 评论 -
机器学习中参数优化调试方法
贝叶斯优化思想简单可归纳为两部分:高斯过程(GP):以历史的调参信息(Observation)去学习目标函数的后验分布(Target)的过程。采集函数(AC):由学习的目标函数进行采样评估,分为两种过程:1、开采过程:在最可能出现全局最优解的参数区域进行采样评估。2、勘探过程:兼顾不确定性大的参数区域的采样评估,避免陷入局部最优。原创 2023-10-20 00:24:57 · 1316 阅读 · 2 评论 -
Python机器学习入门指南
机器学习作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。原创 2023-10-22 00:30:00 · 153 阅读 · 0 评论 -
Python特征选择
机器学习中特征选择是一个重要步骤,以筛选出显著特征、摒弃非显著特征。这样做的作用是:减少特征(避免维度灾难),提高训练速度,降低运算开销;减少干扰噪声,降低过拟合风险,提升模型效果;更少的特征,模型可解释性更好。原创 2023-10-20 00:13:23 · 410 阅读 · 0 评论 -
Python特征分析重要性的常用方法
特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征,它是机器学习中经常使用的一种方法。原创 2023-10-20 00:05:51 · 434 阅读 · 0 评论 -
使用scikit learn训练自已的模型并预测结果
Scikit-learn(全名为scikit-learn)是一个用于机器学习的Python库,它提供了各种机器学习算法和工具,用于数据预处理、模型选择、模型训练、模型评估和模型部署等任务。请注意,这只是一个简单的示例代码,你可以根据具体的问题和数据进行相应的调整和扩展。这是一个基本的流程,你可以根据具体的问题和模型选择进行相应的调整。请注意,这个示例只是一个框架,你需要根据实际的数据集和问题进行适当的调整和预处理。6. 模型评估:使用测试集对训练好的模型进行评估,以了解其在未见过的数据上的性能。原创 2023-06-28 21:52:31 · 2745 阅读 · 1 评论 -
机器学习——博客推荐系统
在当今的信息时代,技术博客已成为知识、见解和娱乐的重要来源。随着博客内容的日益丰富,找到最相关和最引人入胜的文章对用户来说可能是一项艰巨的任务。为了应对这一挑战,我们需要一个全面的博客推荐系统,利用尖端技术和机器学习算法来增强博客平台上的用户体验。我们将基于发布的博客推荐数据构建博客推荐系统。其中包括从 Medium 收集的博客数据以及通过跟踪他们的活动从 5000 多名用户收集的评级。原创 2023-06-16 23:21:24 · 681 阅读 · 1 评论 -
使用scikit-learn和pandas学习线性回归
没有数据,当然没法研究机器学习啦。这里我们用UCI大学公开的机器学习数据来跑线性回归。数据的介绍在这:数据的下载地址在这:里面是一个循环发电场的数据,共有9568个样本数据,每个数据有5列,分别是:AT(温度), V(压力), AP(湿度), RH(压强), PE(输出电力)。我们不用纠结于每项具体的意思。我们的问题是得到一个线性的关系,对应PE是样本输出,而AT/V/AP/RH这4个是样本特征, 机器学习的目的就是得到一个线性回归模型,即:而需要学习的,就是这5个参数。原创 2023-06-01 18:43:20 · 1058 阅读 · 0 评论 -
使用scikit-learn预测股票未来的价格
使用scikit-learn进行股票价格预测,需要收集历史股票价格数据以训练模型。随后,可以使用该模型来预测未来股票价格。首先需要读取股票历史数据,包括开盘价、收盘价、最高价、最低价和价格,然后对数据进行清洗和准备。接着使用train_test_split方法将数据集划分为训练集和测试集,并使用LinearRegression方法建立模型。模型建立完成后,使用r2_score方法评估模型的性能,并使用模型对未来的股票价格进行预测。原创 2023-05-02 23:24:27 · 1251 阅读 · 0 评论