前言
在机器学习这个领域工作的人都知道设计有效的机器学习系统是一个乏味的过程,通常需要对机器学习算法有相当的经验,问题领域的专业知识,以及蛮力搜索来完成。就没有什么办法,减轻这部分乏味的工作吗? TPOT可以
一、TPOT简单介绍
TPOT 是一个 Python 编写的软件包,利用遗传算法行特征选择和算法模型选择,仅需几行代码,就解决了机器学习流程设计中特征工程、模型选择、超参优化三个乏味的重要环节,为模型的建立指明了方向。并生成机器学习主线代码。
上图是一个TPOT的标准的ML流水线,在这条流水线中,在方法,特征,变换和参数值中获得AML搜索的最佳解决方案。
二、遗传算法参数使用
遗传算法基于创建初始种群迭代地组合群体成员,从而根据父母的“特征/参数”创建子代的思想。 在每次迭代结束时,我们进行拟合测试,并将把最适合的个体从原始的种群取出+新的种群被创建。 因此,在每次迭代中,我们将创建新的后代,如果后代表现更好,就可以用它们取代现有的个体。 这使得总体性能增加或者至少在每次迭代保持相同。
遗传算法的参数:
generations – 确定创建子代(新个体)的迭代次数
population_size – 创建个体的初始数量(这些用于创建后代)
offspring_size – 每一代所需创造的新个体数
mutation_rate