
机器学习理论(分类、回归)
文章平均质量分 82
从入门开始学习机器学习,机器学习分类识别、回归预测、时间序列等说明笔记、预测含时间序列
Studying 开龙wu
无聊摸索工作中问题,与python、深度学习、机器学习、数据分析、生成式AI、AI Agent相关的学习笔记等
展开
-
机器学习回归预测中预处理的特征工程
特征工程核心原则,结合领域知识构造特征,避免盲目生成无效特征。通过交叉验证评估特征组合效果,逐步筛选和调整。优先保留具有物理意义的特征,便于模型解释和业务落地。通过以上步骤,可系统性地将原始数据转化为高质量特征,为回归模型奠定坚实基础。原创 2025-05-17 14:59:00 · 579 阅读 · 0 评论 -
机器学习数据预处理回归预测中标准化和归一化
标准化更适合需要保留数据分布信息或对异常值鲁棒性要求较高的场景。归一化更适合数据分布均匀、需固定取值范围的场景。实际应用中可通过交叉验证对比两种方法的效果,选择最优预处理方式。合理使用标准化或归一化,可显著提升模型训练效率和泛化能力,是机器学习流程中不可忽视的关键环节。原创 2025-05-16 23:56:46 · 380 阅读 · 0 评论 -
机器学习前言2
机器学习正快速渗透到各行各业,但其成功依赖高质量数据、合理算法选择和领域知识结合。机器学习模型是机器学习中的核心组件,它是从数据中学习到的数学表示,用于对新数据进行预测或决策。模型可以看作是一个函数 它将输入数X 映射到输出 Y。机器学习模型是从数据中学习的数学函数,用于预测或决策。主要类型:监督学习、无监督学习、强化学习、深度学习。关键选择因素:任务类型、数据规模、可解释性、计算资源。评估方法:准确率、MSE、轮廓系数等。原创 2025-05-16 15:59:19 · 1018 阅读 · 0 评论 -
争对机器学习和深度学习里Python项目开发管理项目依赖的工具中方便第三方库和包的安装
requirements.txt和environment.yam文件说明。混合使用:在 environment.yaml 中通过 pip 字段兼容 requirements.txt 的包。版本锁定:使用 pip-tools(生成 requirements.txt)或 conda-lock(锁定 Conda 依赖)确保完全可复现的环境。现代替代方案:考虑 Poetry(pyproject.toml)或 Pipenv(Pipfile)获得更智能的依赖管理。原创 2025-05-15 20:36:48 · 506 阅读 · 0 评论 -
机器学习时间序列回归预测数据预处理中特征工程、数据标准化和数据集划分说明
特征工程、数据标准化和数据集划分是机器学习时间序列回归预测中数据预处理的重要环节。通过合理的特征工程、数据标准化和数据集划分,可以显著提高模型的准确性和泛化能力。时间序列数据预处理的关键是保持时间顺序和依赖性,任何标准化或特征工程都应只在训练数据上进行拟合,然后应用到验证/测试集,避免数据泄露原创 2025-03-26 08:59:51 · 1464 阅读 · 0 评论 -
机器学习回归预测中数据清洗与数据聚合说明
数据清洗和聚合是回归预测中不可或缺的一环。通过系统性地处理缺失值、异常值,并合理聚合数据,可显著提升模型性能。实际应用中需结合业务场景,灵活选择方法,并通过交叉验证优化参数原创 2025-03-25 09:36:32 · 554 阅读 · 0 评论 -
机器学习数据集划分解释训练集、验证集和测试集
训练集:用于训练模型,让模型学习数据特征。验证集:用于调整超参数和防止过拟合,帮助优化模型。测试集:用于最终评估模型的泛化能力,反映模型在实际应用中的表现。通过合理划分数据集,可以有效避免模型过拟合或欠拟合,提高模型的泛化能力和可靠性。原创 2025-03-08 15:08:12 · 1621 阅读 · 0 评论 -
机器学习模型算法代码需要在环境中安装的库和包
安装这些库和包,你可以构建和训练各种机器学习模型,并进行数据分析和可视化。原创 2025-03-01 23:54:30 · 442 阅读 · 0 评论 -
机器学习模型训练超参数优化使用sklearn库里网格搜索(Grid Search)方法所有参数含义解释
RandomizedSearchCV 是 sklearn.model_selection 模块中的一个类,用于在给定的参数空间中随机搜索最佳的超参数组合。相比于 GridSearchCV,RandomizedSearchCV 不会遍历所有可能的参数组合,而是随机选择一部分组合进行评估,因此在参数空间较大时效率更高。原创 2025-02-22 19:15:31 · 905 阅读 · 0 评论 -
机器学习做模型预测时超参数优化提升性能(降低评价指标)五种种方法:网格搜索、随机搜索、贝叶斯优化、遗传算法、基于梯度的优化
超参数优化是提升模型性能的关键步骤。代码训练用的到,想到降低评价指标均方误差 (MSE)、均方根误差 (RMSE)、平均绝对误差 (MAE)、决定系数 (R²),这是是几种常用的超参数优化方法:1.网格搜索(Grid Search)2.随机搜索(Random Search)3.贝叶斯优化(Bayesian Optimization)4.遗传算法(Genetic Algorithm)5.基于梯度的优化(Gradient-Based Optimization)原创 2025-02-22 18:56:06 · 2047 阅读 · 0 评论 -
机器学习免费使用的数据集及网站链接
在进行机器学习时可以先找免费公开的数据集原创 2025-01-06 19:41:46 · 3738 阅读 · 0 评论 -
机器学习模型建立代码编程时可以使用的库和框架
总的来说,选择哪个机器学习库或框架取决于具体的项目需求、团队技术栈以及目标硬件平台。在实际应用中,可以根据项目的实际情况选择合适的库和框架来构建、训练和部署机器学习模型。原创 2025-01-05 12:32:27 · 702 阅读 · 0 评论 -
机器学习算法的分类
机器学习算法的分类方式多种多样,每种分类方式都有其独特的算法和应用场景。选择合适的算法不仅取决于数据的特性,还与业务的需求密切相关。原创 2025-01-04 21:55:54 · 1085 阅读 · 0 评论 -
机器学习中回归预测模型中常用四个评价指标MBE、MAE、RMSE、R2解释
综上所述,MBE、MAE、RMSE和R2是机器学习中常用的四个评级指标,它们各有优缺点,适用于不同的应用场景。在实际应用中,需要根据具体需求选择合适的指标来评估模型的性能。原创 2024-12-28 22:45:34 · 4755 阅读 · 0 评论 -
机器学习随机森林回归模型数据预处理中归一化或者标准化
综上所述,对于随机森林回归模型来说,归一化和标准化都是可行的数据预处理方法。具体选择哪种方法取决于数据的特性、模型的特性以及具体的应用场景。在实际应用中,可以通过实验来比较两种方法的效果,选择更适合的方法来提高模型的准确性和稳定性。原创 2024-12-28 22:24:52 · 903 阅读 · 0 评论 -
机器学习随机森林回归时间序列预模型中时间滑动窗口作用以及参数设置
然而,需要注意的是,滑动窗口技术也存在一些挑战和限制。例如,处理大量窗口可能会增加计算复杂度和内存需求;窗口在数据的边界处可能会遇到不完整的数据,从而影响特征的准确性;以及窗口大小和步长的选择需要仔细权衡以平衡模型的性能和训练时间等。总的来说,时间滑动窗口在时间序列模型中起到了至关重要的作用,它使得模型能够更准确地捕捉和分析时间序列数据中的特征、趋势和异常行为。通过合理设置窗口大小和滑动步长,可以进一步提高模型的预测性能和适应性。原创 2024-12-28 22:10:18 · 942 阅读 · 0 评论 -
机器学习Python使用scikit-learn工具包详细介绍
Scikit-learn是一个功能强大且易于使用的机器学习库,适合初学者和专业人士进行数据挖掘和数据分析。通过掌握Scikit-learn的基本用法和主要功能模块,用户可以更加高效地实现各种机器学习任务。原创 2024-12-22 16:14:10 · 554 阅读 · 0 评论 -
机器学习中做时间序列模型考虑把时间作为特征分析
时间序列模型时间窗口的选择是一个复杂而关键的过程,需要根据数据的特性、预测任务的要求以及计算资源等因素进行综合考虑。通过合理选择时间窗口,可以提高模型的预测精度和鲁棒性。原创 2024-12-20 21:30:31 · 1174 阅读 · 0 评论 -
机器学习中数据预处理的方法
机器学习中数据预处理的方法多种多样,具体选择哪种方法取决于数据的特性和模型的需求。通过合理的数据预处理,可以提高模型的准确性和稳定性,从而提升机器学习算法的性能。原创 2024-12-20 21:08:42 · 1199 阅读 · 0 评论 -
大数据、人工智能、机器学习、深度学习关系联系前言
1.大数据和人工智能关系2.机器学习、深度学习、人工智能关系3.监督学习、无监督学习、半监督学习、强化学习、迁移学习关系4.机器学习具体内容原创 2023-08-21 19:03:38 · 1445 阅读 · 0 评论 -
机器学习前言1
1.机器学习和统计学关系2.机器学习的发展3.机器学习与深度学习的相同点与不同点4.机器学习和深度学习优缺点原创 2023-07-26 21:54:31 · 1176 阅读 · 0 评论 -
机器学习支持向量机SVM的原理、算法、应用解释及完整代码
建立在统计学习理论VC维理论和结构风险最小化原理基础上的机器学习方法。用于解决数据挖掘或模式 识别领域中数据分类问题它在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势,并在很大程度上克服了“维数灾难”和“过学习”等问题。此外,它具有坚实的理论基础,简单明了的数学模型,因此,在模式识别、回归分析、函数估计、时间序列预测等领域都得到了长足的发展,并被广泛应用于文本识别、手写字体识别、人脸图像识别、基因分类及时间序列预测原创 2022-10-02 16:38:17 · 2786 阅读 · 0 评论 -
BP神经网络理论
BP (Back Propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照**误差逆向传播算法**训练的多层前馈神经网络,是应用最广泛的神经网络。BP神经网络由输入层、输出层和之间若干层(一层或多层)隐含层构成,每一层可以有若干个节点。层与层之间节点的连接状态通过权重来体现。只有一个隐含层的时候,这样的BP神经网络属于传统的浅层神经网络**;当有多个隐含层的时候,这样的BP神经网络属于**深度学习的神经网络。原创 2022-09-29 19:24:21 · 1556 阅读 · 0 评论 -
数据挖掘之K近邻算法分类和KD树改进及代码超详细
KNN(K-Nearest Neighbor即K近邻),监督学习算法。当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断属于哪个类别。做分类也可以做回归。原创 2022-06-19 16:29:02 · 1377 阅读 · 0 评论