机器学习
文章平均质量分 92
freed_Day
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
人工智能与机器学习基本概念知识入门
人工智能(AI)是让机器模拟人类智能的科学与技术,涵盖机器学习、深度学习、计算机视觉等子领域。其发展经历了从专家系统到深度学习的演进,现广泛应用于医疗、金融、交通等行业。AI核心三要素为:数据(燃料)、算法(大脑)和算力(发动机)。机器学习工作流程包括数据处理、特征工程、模型训练与评估。根据任务类型,算法可分为监督学习(分类/回归)、无监督学习(聚类/降维)、半监督学习和强化学习,并通过准确率、召回率、RMSE等指标评估性能。高质量数据与合适算法的结合推动着AI技术的持续突破。原创 2025-08-07 14:12:09 · 1657 阅读 · 0 评论 -
机器学习之线性回归的入门学习
线性回归是一种用于预测连续值的监督学习算法,通过建立特征与目标变量之间的线性关系进行建模。其核心是找到最优权重系数,最小化预测值与真实值的误差(常用均方误差损失函数)。模型形式包括简单线性回归(单特征)和多元线性回归(多特征),可通过梯度下降或正规方程求解。优点在于简单高效、可解释性强,适合作为基准模型;缺点是对非线性关系、异常值和多重共线性敏感,依赖特征工程。扩展应用包括多项式回归等变体,核心要求是模型对参数保持线性。原创 2025-07-30 23:40:07 · 1028 阅读 · 0 评论 -
使用python中的 GridSearchCV( ) 快速完成交叉验证+网格搜索实现调优
本文介绍了使用Scikit-learn中的GridSearchCV进行机器学习模型调优的方法。GridSearchCV通过交叉验证和网格搜索自动寻找最优超参数组合,确保模型性能从"能用"提升到"卓越"。文章详细解析了其核心功能、关键参数及结果获取方式,并以KNN算法和鸢尾花数据集为例演示了完整流程,包括数据预处理、参数网格定义、模型训练和评估。GridSearchCV的优势在于参数搜索的全面性、结果客观性以及工作流简化,是提升模型性能的高效工具。原创 2025-07-30 01:56:44 · 2142 阅读 · 0 评论 -
K-近邻算法(KNN算法)的K值的选取--交叉验证+网格搜索
摘要:KNN算法中K值选择直接影响模型性能,需通过交叉验证和网格搜索进行优化。交叉验证通过多次数据划分评估模型泛化能力,避免过拟合;网格搜索则系统遍历参数组合寻找最优解。二者协同工作流程包括:定义参数网格、遍历参数组合、交叉验证评分、选择最优参数及最终测试评估。案例展示了如何使用交叉验证评估K值性能,网格搜索优化多参数(K值、权重、距离度量),并可视化结果。这种方法能有效平衡偏差-方差,提升模型在新数据上的预测能力。原创 2025-07-29 23:48:18 · 1294 阅读 · 1 评论 -
机器学习算法—— K-近邻算法
K-近邻算法(KNN)是一种基于距离度量的监督学习算法,通过计算待测样本与训练数据的最近邻距离进行分类预测。本文介绍了KNN的核心原理、Scikit-learn实现方法、优化搜索效率的KD树结构以及关键参数K值的选择策略。KNN具有简单直观、无需训练等优点,但也存在计算成本高、对特征尺度敏感等缺点。文中通过Iris数据集案例展示了KNN的完整应用流程,包括数据预处理、模型训练与评估。该算法适用于低维分类和回归问题,但在处理高维大数据时需谨慎使用。原创 2025-07-29 18:20:51 · 1238 阅读 · 0 评论 -
模拟实现python的sklearn库中的Bunch类以及 load_iris 功能
本文通过模拟实现sklearn库中的Bunch类及load功能,帮助读者理解机器学习数据加载机制。文章首先演示了原始load_iris()函数的使用,展示了其返回的Bunch对象特性。随后详细介绍了Bunch类的核心功能:作为字典子类,允许通过属性访问数据集的特征数据(data)、标签(target)等关键属性。文中提供了Bunch类的模拟实现代码,解释其继承字典、支持属性访问的实现原理,并以鸢尾花数据集为例说明其用法。该教程适合正在学习机器学习基础及sklearn库使用的读者,建议结合作者前期关于Pyth原创 2025-07-27 23:08:43 · 1141 阅读 · 0 评论 -
sklearn库中有关于数据集的介绍
Scikit-learn提供了丰富的内置数据集,涵盖分类、回归和聚类任务。常用分类数据集包括鸢尾花(150样本4特征)、手写数字(1797样本64特征)和乳腺癌数据集(569样本30特征)。回归任务常用加利福尼亚房价(20640样本8特征)和糖尿病数据集(442样本10特征)。聚类可使用合成斑点数据或鸢尾花数据集。其他数据集如葡萄酒(178样本13特征)和新闻分类(18000文本样本)也很实用。通过load_*函数加载数据,可用DESCR查看详情,适合快速开发测试。原创 2025-07-26 17:10:19 · 1429 阅读 · 0 评论 -
一文搞定K-近邻算法中有关于常见的距离度量的计算方法和解析
文章摘要 本文系统介绍了多种常用的距离度量方法及其应用场景。欧氏距离计算多维空间两点间的直线距离,曼哈顿距离采用坐标轴绝对差之和,切比雪夫距离取坐标差的最大绝对值。闵可夫斯基距离作为广义度量,通过参数p控制不同距离计算方式。标准欧氏距离通过特征标准化解决量纲问题。余弦距离衡量向量方向差异,适用于文本分析等场景。此外还介绍了汉明距离(字符串差异)、杰卡德距离(集合差异)和马氏距离(考虑协方差结构)。每种距离都附有数学定义、几何解释和Python实现示例,为不同数据分析场景提供了全面的距离计算参考。原创 2025-07-25 16:01:14 · 1905 阅读 · 0 评论
分享