机器学习一般过程
机器学习一般的较为完整的过程大致可以分为如下几个步骤:
数据准备
数据准备阶段需要完成的任务:
- 寻找合适的数据集,有很多的机构或者企业发布了各种类型,各种行业的数据集,这些数据集下载之后可以直接使用
- 需要自己整理数据集,机器学习对数据的量的要求相对较低,自己获取,整理数据的难度相对(深度学习)较低,一般可以通过各种传感器采集、网络爬虫等,其中网络爬虫是目前数据的主要来源。加上python语言丰富的第三方库,使得python来写爬虫非常简单便捷。
- 获取之后的数据需要对数据进行规范化处理,对没有意义的数据进行清理,然后需要根据机器学习要构建的模型,对数据集做进一步处理。例如,如果我们构建的模型属于监督学习,就需要对数据集进行标注处理,给每个数据集一个标签
选择模型
明确需求,是属于分类问题、聚类问题、或者回归问题等。根据问题的性质选择机器学习算法,构建机器学习模型。
训练模型
训练模型又需要对已经准备好的数据集进行简单的处理:将数据集划分为训练集和测试集,划分比例可以根据数据集的大小,如果是分类问题,每一类的数据的数量也可以作为划分比例的参考,一般划分比例为:
- train : test = 8 : 2
- train : test = 9 : 1
- train : test = 7 : 3
然后构建合适的模型,例如决策树、支持向量机、神经网络等。
测试模型
使用已经划分好的测试集作为输入进行模型测试,也可以自己构建数据进行模型测试,但需要事先知道这个数据它的标签(分类问题)
模型评估
在模型训练完成后,我们需要对模型进行评估和调优。常见的评估指标包括准确率、精确率、召回率、F1值等。通过分析评估结果,我们可以了解模型在不同情况下的表现,并进行必要的调整和改进,如调整模型参数、尝试不同的算法或特征等。
应用模型
我们可以将模型保存下来,保存之后的模型在使用的时候进行加载使用即可。使用模型处理问题,将我们想要解决的问题作为输入,输出模型处理结果,有需要可以对结果进行其它处理,得到满足需求的输出。
模型维护
在模型使用的时间内,需要根据需求重新对模型参数进行调整,优化,跟踪模型的各种指标,使模型更完善,更高效,更精确。
补充:机器学习训练模型的过程就是对模型进行不断的参数优化,而模型,我们完全可以理解为一个函数,可以是一次函数,可以是二次函数或者其它更高维度,更复杂的函数,模型越复杂,参数一般都会相应的越多,最简单的一次函数模型(线性模型)都包含了权重(w)和偏置(b)这两个参数。模型训练过程就是不断的根据输入对参数这些参数不断的进行调整的过程,最终得到一个最符合条件的模型,也就是函数表达式(理解为),我们使用这个函数表达式,输入一个x,函数返回一个y,y就是我们想要的结果。
如有错误,欢迎指正,谢谢