机器学习
文章平均质量分 86
小海聊智造
专注于设计和构建可扩展、高性能和可靠的软件系统。我拥有十年以上的行业经验,涵盖多个领域,包括企业级应用、云计算,AI智能 和大数据处理。
热衷于解决复杂的技术挑战,并通过创新的架构设计提供可持续的解决方案。我具备深厚的技术功底,熟悉多种编程语言和技术栈,如Java、Python、go等, 熟悉微服务架构和分布式系统设计。我善于分析业务需求和技术要求,提供可行的技术方案,并在团队中推动其实施和落地。
展开
-
机器学习基础17-基于波士顿房价(Boston House Price)数据集训练模型的整个过程讲解
在这个项目中将分析研究波士顿房价(Boston House Price)数据集,这个数据集中的每一行数据都是对波士顿周边或城镇房价的描述。数据是1978年统计收集的。数据中包含以下14个特征和506条数据(UCI机器学习仓库中的定义)。· CRIM:城镇人均犯罪率。· ZN:住宅用地所占比例。· INDUS:城镇中非住宅用地所占比例。· CHAS:CHAS虚拟变量,用于回归分析。· NOX:环保指数。· RM:每栋住宅的房间数。· AGE:1940年以前建成的自住单位的比例。原创 2023-08-30 16:54:55 · 2611 阅读 · 0 评论 -
机器学习基础16-建立预测模型项目模板
主要是导入在机器学习项目中所需要的类库和数据集等,以便完成机器学习的项目,包括导入Python的类库、类和方法,以及导入数据。同时这也是所有的配置参数的配置模块。当数据集过大时,可以在这里对数据集进行瘦身处理,理想状态是可以在 1 分钟内,甚至是30秒内完成模型的建立或可视化数据集。原创 2023-08-30 11:16:06 · 715 阅读 · 0 评论 -
机器学习基础15-模型保存
结果部署是机器学习项目中的最后一步,也是最重要的步骤之一。选定算法之后,对算法训练生成模型,并部署到生产环境上,以便利用机器学习解决实际问题。模型生成之后,也需要定期对模型进行更新,使模型处于最新、最有效的状态,通常建议3~6个月更新一次模型。原创 2023-08-28 10:15:19 · 684 阅读 · 0 评论 -
机器学习基础14-算法调参(基于印第安糖尿病Pima数据集)
机器学习的模型都是参数化的,可以通过调参来提高模型的准确度。模型有很多参数,如何找到最佳的参数组合,可以把它当作一个查询问题来处理,但是调整参数到何时为止呢?应该遵循偏差和方差协调的原则。接下来将介绍在 scikit-learn 中设置机器学习模型最佳参数的方法。原创 2023-08-28 09:25:50 · 834 阅读 · 0 评论 -
机器学习基础13-基于集成算法优化模型(基于印第安糖尿病 Pima Indians数据集)
有时提升一个模型的准确度很困难。如果你曾纠结于类似的问题,那我相信你会同意我的看法。你会尝试所有曾学习过的策略和算法,但模型正确率并没有改善。这时你会觉得无助和困顿,这也是90%的数据科学家开始放弃的时候。不过,这才是考验真本领的时候!这也是普通的数据科学家和大师级数据科学家的差距所在。前面介绍了一系列算法,每种算法都有不同的适用范围。在现实生活中,常常采用集体智慧来解决问题。那么在机器学习中,能否将多种机器学习算法组合在一起,使计算出来的结果更好呢?这就是集成算法的思想。原创 2023-08-25 14:08:47 · 815 阅读 · 1 评论 -
机器学习基础12-Pipeline实现自动化流程处理(基于印第安糖尿病Pima 数据集)
有一些标准的流程可以实现对机器学习问题的自动化处理,在 scikitlearn 中通过Pipeline来定义和自动化运行这些流程。本节就将介绍如何通过Pipeline实现自动化流程处理。原创 2023-08-25 13:14:44 · 811 阅读 · 0 评论 -
机器学习基础11-算法比较(基于印第安糖尿病Pima Indians 数据集)
比较不同算法的准确度,选择合适的算法,在处理机器学习的问题时是非常重要的。本节将介绍一种模式,在scikit-learn中可以利用它比较不同的算法,并选择合适的算法。你可以将这种模式作为自己的模板,来处理机器学习的问题;也可以通过对其他不同算法的比较,改进这个模板。原创 2023-08-25 10:34:36 · 694 阅读 · 0 评论 -
机器学习基础10-审查回归算法(基于波士顿房价的数据集)
本章将审查七种回归算法。线性回归算法。岭回归算法(脊回归算法)。套索回归算法。弹性网络(Elastic Net)回归算法。K近邻算法(KNN)。分类与回归树算法。支持向量机(SVM)。本章将使用波士顿房价的数据集来审查回归算法,采用10折交叉验证来分离数据,并应用到所有的算法上。另外,还会通过均方误差来评估算法模型。scikit-learn 中的cross_val_score()函数能够帮助评估算法模型,我们就用这个函数来评估算法模型。原创 2023-08-25 09:55:34 · 1014 阅读 · 0 评论 -
机器学习基础09-审查分类算法(基于印第安糖尿病Pima Indians数据集)
算法审查是选择合适的机器学习算法的主要方法之一。审查算法前并不知道哪个算法对问题最有效,必须设计一定的实验进行验证,以找到对问题最有效的算法。本章将学习通过scikit-learn来审查六种机器学习的分类算法,通过比较算法评估矩阵的结果,选择合适的算法。原创 2023-08-24 17:54:32 · 745 阅读 · 0 评论 -
数据集收集列表(opencv,机器学习,深度学习)持续更新
opencv,机器学习,深度学习 数据集收集页原创 2023-08-24 17:06:59 · 1514 阅读 · 0 评论 -
opencv进阶18-基于opencv 决策树导论
决策树是最早的机器学习算法之一,起源于对人类某些决策过程 的模仿,属于监督学习算法。决策树的优点是易于理解,有些决策树既可以做分类,也可以做回归。在排名前十的数据挖掘算法中有两种是决策树[1]。决策树有许多不同版本,典型版本是最早出现的ID3算法,以及对其改进后形成的C4.5算法,这两种算法可用于分类。对ID3算法改进的另一个分支为“分类和回归树”(Classification AndRegression Trees,CART)算法,可用于分类或回归。原创 2023-08-23 10:40:44 · 719 阅读 · 0 评论 -
机器学习基础08-回归算法矩阵分析(基于波士顿房价(Boston House Price)数据集)
波士顿房价预测更像是预测一个连续值,当然这也是一个非常经典的机器学习案例。原创 2023-08-08 11:30:38 · 1950 阅读 · 0 评论 -
机器学习基础08-模型选择02-分类算法矩阵(基于Pima 数据集)
算法评估矩阵(Algorithm Evaluation Metrics)用于评估机器学习算法在特定任务上的。不同的任务可能会使用不同的评估矩阵,因为每个任务的优劣衡量标准都不同。原创 2023-08-04 15:01:13 · 711 阅读 · 0 评论 -
机器学习基础07-模型选择01-利用scikit-learn 基于Pima 数据集对LogisticRegression算法进行评估
选择合适的模型是机器学习和深度学习中非常重要的一步,它直接影响到模型的性能和泛化能力。“所有模型都是坏的,但有些模型是有用的”。建立模型之后就要去评 估模型,确定模型是否有用。模型评估是模型开发过程中不可或缺的一部分,有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。:首先需要明确问题的类型,是分类问题、回归问题、聚类问题还是其他类型的问题。不同类型的问题可能需要使用不同类型的模型。:数据量的大小对模型选择有影响。如果数据量较小,可以考虑使用较简单的模型,以防止过拟合。原创 2023-08-04 11:14:58 · 604 阅读 · 0 评论 -
机器学习06 数据准备-(利用 scikit-learn基于Pima Indian数据集作 数据特征选定)
数据特征选定(Feature Selection)是指从原始数据中选择最相关、最有用的特征,用于构建机器学习模型。特征选定是机器学习流程中非常重要的一步,它直接影响模型的性能和泛化能力。通过选择最重要的特征,可以减少模型的复杂性,降低过拟合的风险,并提高模型的训练和预测效率。相关性分析:通过计算特征与目标变量之间的相关性,选择与目标变量高度相关的特征。可以使用相关系数、互信息等指标进行相关性分析。特征重要性评估。原创 2023-08-03 14:43:51 · 1107 阅读 · 0 评论 -
机器学习05-数据准备(利用 scikit-learn基于Pima Indian数据集作数据预处理)
scikit-learn(简称为sklearn)是一个流行的用于机器学习和数据挖掘的Python库。它提供了丰富的工具,用于构建和应用各种机器学习算法,并支持数据预处理、特征工程、模型评估等功能。是开源的,易于使用,广泛应用于数据科学和机器学习领域。原创 2023-08-03 09:53:43 · 1549 阅读 · 0 评论 -
机器学习03-数据理解(小白快速理解分析Pima Indians数据集)
在给定的数据集中,"尾部"通常用于描述数据分布的两端,即数据中较小或较大的值。在这个数据集中,我们可以观察到两个值,即"2"和"5",这两个值分别是数据的尾部。具体来看下data1 说:在给定的数据集 [2, 2, 2, 5, 5, 5, 5, 5, 5, 5, 5] 中,尾部是指数据集中位于两端的值。根据数据集,我们可以看到两个值:2 和 5。在这个数据集中:数据集中较小的值为 2,它出现了 3 次,位于数据的左尾部(左端)。数据集中较大的值为 5,它出现了 8 次,位于数据的右尾部(右端)原创 2023-07-28 16:16:14 · 2362 阅读 · 1 评论 -
机器学习02-再识K邻近算法(自定义数据集训练及测试)
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。简单的说就是根据你的“邻居”来推断出你的类别。用个成语就是物以类聚为了避免每次都重新计算一遍距离,算法会把距离信息保存在一颗树里,在计算之前从树里查询距离信息,这样避免重新计算。其基本原理是如果A和B距离都很远,B和C距离很近,那么A和C的距离也很远。类比“二分查找”:给出一组数据:[9 1 4 7 2 5 0 3 8],要查找8。如果挨个查找(线性扫描),那么将会把数据集都遍历一遍。原创 2023-07-27 15:49:41 · 983 阅读 · 1 评论 -
机器学习01 -Hello World(对鸢尾花(Iris Flower)进行训练及测试)
机器学习是一种人工智能(AI)的子领域,它探索和开发计算机系统,使其能够从数据中学习和改进,并在没有明确编程指令的情况下做出决策或完成任务。传统的程序需要程序员明确编写指令来告诉计算机如何执行特定任务。但是,机器学习采用不同的方法。它允许计算机通过分析大量的数据来发现模式、关系和规律,并根据这些发现做出预测和决策。机器学习系统的主要特点是可以通过反复迭代来改进自己的性能。这是通过使用数据集进行训练实现的。训练数据集包含一组示例,每个示例都有相应的输入和输出。原创 2023-07-27 11:38:43 · 1318 阅读 · 1 评论