机器学习的流程

1.数据收集

         中国古代的“神农尝百草”的故事其实就是机器学习的思想。机器学习不是基于推理的“演绎法”,而是基于观测的“归纳法”。因为它用的是归纳法,所以数据是基础。AI需要见过各种类型和各种状态的实物图片才行,这就需要大量的基础数据。

        初始的人工智能软件就像初生的婴儿一样,是一张白纸什么都不会。大家要教他认识周围的事物,告诉他鼻子是鼻子,鼻子是用来呼吸的;告诉他嘴巴是嘴巴,嘴巴是用来说话和吃东西的。AI也一样,我们需要向机器提供鼻子、嘴巴的图片,并将图片中的鼻子和嘴巴指出来,然后机器通过学习图片中鼻子和嘴巴的特征,并做好标注,机器就能够认知了。

        上下班考勤的指纹打卡机,会先输入员工的指纹,再设置次指纹对应的员工的名字或者编号,待机器确认后,往后的日子只要输入指纹,机器就可以识别了。这便是最简单的人工智能原理:先输入信息,然后机器识别信息,再做输出。

       机器学习的本质,一切都是量化的,而不是“抽象、模糊”的。原生的图片、文字等形式都是机器无法直接辨识的,都要先转化为数字、向量、矩阵。收集数据,再通过这些数据来训练人工智能模型。业界有一句非常著名的话:“数据决定了机器学习的上界,而模型和算法知识逼近这个上界。”由此可见,数据对于整个机器学习项目至关重要,有了优质数据的支持,人工智能才能更好地发展。

2.数据预处理

         在工程实践中,我们得到的数据会存在缺失值、重复值等。在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。数据预处理的主要常用流程为:去除唯一属性、处理缺失值、特征编码、特征缩放。

        去除唯一属性是因为唯一属性通常是一些id属性,这些属性并不能刻画样本自身的分布规律,所以简单第删除这些属性即可。

        对于缺失值处理的方法,除了不处理直接使用含有缺失值的特征以及缺失值补全,也可以删除含有缺失值的特征(该方法在包含缺失值的属性含有大量缺失值并且仅仅包含及少量有效值时才是有效的)。

       特征编码是指特征必须是数值型才能统计计算,所以要对特征进行编码。比如性别特征【‘male’,‘female’】等,模型不能直接识别的数据,处理的目的是将不能够定量处理的变量量化。

       为什么还要进行特征缩放?这是因为有些特征(属性)的值是有区间界限的,如年龄、体重。而有些特征的值是可以无限制增加的,所以特征与特征之间数值的差距会对模型产生不良影响(数量级的差异将导致量级较大的属性占据主导地位,依赖于样本距离的算法对于数据的数量级非常敏感)。如果没有对数据进行 预处理的话有可能带来偏差,难以较好地反应特征之间的重要程度。通过归一化和标准化的手段将样本的属性缩放到某个指定的范围,消除样本不同属性具有不同量级时的影响。

3.特征工程

       特征工程也被称为特征提取,为了提取知识和做出预测,机器学习使用数学模型来拟合数据,这些模型将特征作为输入。特征就是原始数据某个方面的数值表示,在机器学习流程中,特征是数据和模型之间的纽带。

       特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程。某种程度而言,好多数据以及特征往往是一个性能优秀模型的基础,它是机器学习流程中及其关键的一个环节,因为正确的特征可以减轻构建模型 的难度,从而使机器学习流程输出更高质量的结果。机器学习从业者有一个共识,那就是建立机器学习流程 的绝大部分时间都耗费在特征提取和数据预处理上。

4.模型构建和训练

        当我们处理好数据之后,就可以选择合适的机器学习模型进行数据的训练了。可供选择的机器学习模型有很多。每个模型都有自己的适用场景,那么如何选择合适的模型呢?

        首先我们要对处理好的数据进行分析判断,是考虑使用监督学习的模型,还是无监督学习的模型。其次分析问题的类型是属于分类问题还是回归问题,当我们确定好问题的类型之后再去选择具体的模型。

       在模型的实际选择时,通常会考虑尝试不同的模型对数据进行训练,然后比较输出的结果,选择最佳的那个。此外,我们还会考虑到数据集的大小。若是数据集样本较少,训练的时间较短,通常考虑朴素贝叶斯等一些轻量级的算法,否则的话就要考虑一些重量级的算法。

        选好模型后是训练模型,训练模型意味着找到最合适的权重/参数,以便最大限度地分类(在分类问题中)或者预测与实际值直接的误差最小(在回归问题中)。

5.模型评估与优化

       模型评估是机器学习流程中不可或缺的一环,它旨在评估模型的性能,确保模型在实际应用中能够达到预期的效果。评估通常包括在独立的测试集上测试模型的预测能力,并计算一系列性能指标,如准确率、召回率、F1分数、均方误差(MSE)等,这些指标能够全面地反映模型的优劣。

       如果发现模型性能不佳,就需要进行模型优化。模型优化可以从多个方面入手,包括但不限于:

  • 调整模型参数:通过调整模型的超参数(如学习率、迭代次数、正则化系数等)来改善模型性能。
  • 特征选择:选择对模型预测能力贡献更大的特征,去除冗余或噪声特征,提高模型的泛化能力。
  • 数据增强:通过增加训练数据的多样性来提高模型的鲁棒性,尤其是在数据量不足的情况下。
  • 算法改进:尝试使用更复杂的算法或集成学习方法(如随机森林、梯度提升树、神经网络等)来提高模型性能。

       此外,还可以采用交叉验证等方法来评估模型在不同数据集上的稳定性,并根据评估结果对模型进行进一步的调整和优化。

6.模型部署与监控

       当模型经过充分的训练和评估,并达到预期的性能指标后,就可以将其部署到生产环境中进行实际应用了。模型部署涉及到将训练好的模型集成到应用程序或系统中,以便对新的数据进行预测或分析。

       在模型部署后,还需要对模型进行持续的监控和维护。监控的目的是及时发现模型性能下降或失效的情况,并采取相应的措施进行修复或更新。监控可以包括定期检查模型的预测结果、评估模型的性能指标、跟踪数据分布的变化等。

       此外,随着数据的不断积累和变化,模型可能需要定期进行重新训练和更新,以保持其预测能力和准确性。因此,建立一个自动化的模型更新机制也是非常重要的。

       综上所述,机器学习流程包括数据收集、数据预处理、特征工程、模型构建和训练、模型评估与优化以及模型部署与监控等多个环节。这些环节相互关联、相互支持,共同构成了机器学习项目的完整流程。在实际应用中,需要根据具体问题和数据特点选择合适的机器学习方法和工具,并不断优化和改进模型性能以满足实际需求。

        

  • 12
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
A03机器学习流程是指在进行机器学习项目时所需要遵循的一系列步骤。下面是A03机器学习流程的主要步骤: 1. 数据收集与观察:首先,需要收集与问题相关的数据,并对数据进行观察,了解数据的特征、缺失值以及异常值等情况。 2. 数据预处理:对收集到的数据进行预处理,包括数据清洗、特征选择、特征变换等操作,目的是为了提高模型的性能和准确性。 3. 模型选择与训练:选择合适的机器学习模型,并对模型进行训练。常见的机器学习模型包括决策树、支持向量机、神经网络等。 4. 模型评估与调优:通过评估模型在测试集上的性能指标(如准确率、召回率等),来判断模型的优劣。如果模型性能不佳,需要对模型进行调优,常用的调优方法包括超参数调整、交叉验证等。 5. 模型部署与应用:将训练好的模型部署到实际应用中,并对新的数据进行预测和分类。 6. 模型监控与更新:对已部署的模型进行监控,定期更新模型参数,以保证模型的准确性和稳定性。 A03机器学习流程能够帮助我们在机器学习项目中有条不紊地进行工作,并且能够提高模型的性能和准确性。每个步骤都需要认真对待,对于数据的收集与预处理要尤为重视,因为数据的质量直接关系到模型的准确性。此外,在模型选择与训练中,根据具体问题的特点选择合适的模型也是十分重要的一步。最后,对模型进行评估、调优以及部署与更新也是不可忽视的步骤,它们能够提高模型的稳定性和持续性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值