机器学习简单介绍LWS

最新推荐文章于 2022-08-12 17:26:07 发布

specter9797

最新推荐文章于 2022-08-12 17:26:07 发布

阅读量607

点赞数

文章标签：算法随机森林逻辑回归线性回归 python

本文链接：https://blog.csdn.net/specter9797/article/details/125138147

版权

机器学习：机器学习是一类算法的总称，其目标是为了从大量历史数据中挖掘出其中隐含的规律，并用于预测或者分类。具体的来说，机器学习可以看作是寻找一个函数，输入是样本数据，输出是期望的结果。机器学习的目标是使学到的函数很好地适用于“新样本”，而不仅仅是在训练样本上表现很好。学到的函数适用于新样本的能力，称为泛化能力。

机器学习的一些基本概念：属性/特征：事件在某方面的表现或性质。

训练：从数据中学的模型的过程。(训练数据、训练样本、训练集)

测试：使用学的模型进行预测的过程。(测试样本)

标记/标签：关于示例结果的信息。

分类和回归：预测的是离散值的学习任务称为分类，预测连续值为回归。

泛化能力：学得模型适用于新样本的能力。一般训练样本越多，越有可能通过学习获得具有强泛化能力的模型。

参数估计：根据从总体中抽取的样本估计总体分布中包含的未知参数的方法。

机器学习分类：

任务类型分类：回归模型、分类模型、结构化学习模型

方法角度：线性模型、非线性模型

学习理论分类：有监督学习、半监督学习、无监督学习、迁移学习和强化学习　有监督学习：训练样本有标签；半监督学习：部分有标签，部分无标签；迁移学习是把已经训练好的模型参数迁移到新的模型上以帮助新模型训练。强化学习是一个学习最优策略，可以让本体在特定环境中，根据当前状态，做出行动，从而获得最大回报。强化学习和有监督学习最大的不同是，每次的决定没有对与错，而是希望获得最多的累计奖励。

机器学习步骤：

1.收集数据：数据中蕴含模型所要“学习”的知识，因此数据至关重要，搜集数据的质量和数量都将决定最终模型的性能好坏。实际处理中，数据大都存在着问题，不能直接使用，需要对数据进行清洗，数据的清洗主要要空值处理、异常值处理、数据标准化（ｍｉｎ－ｍａｘ标准化，Ｚ－ｓｃｏｒｅ标准化）

2.模型选择：算法的效果不能脱离实际问题，在某些问题上表现好的算法，在另一个问题上的表现可能不是很好。每个算法有其固定的特点，有相匹配的应用场景。模型选择包含两层含义，一层含义是指机器学习算法众多，对于同一个问题，从多种算法中进行选择；另外一层含义是对于同一种算法来说，设置不同的参数后，算法效果可能发生很大变化，甚至会变成不同的模型。

3.模型训练与测试：模型在运用之前，需要测定模型的准确程度。因此建立模型需要两个数据集———训练用数据集（测试集）和测试用数据集（训练集）。验证集：是模型训练单独留出的样本集，可以用于调整模型的参数和用于对模型的能力进行初步评估。一般在训练集中单独划分出一块作为验证集，使用验证集能减少过拟和。

4.模型性能评估：对于模型评价有很多方法，常用的指标如准确率、错误率、精准率、召回率、roc曲线、ks曲线等

用e代表错误率，计算方式：e=分类错误的样本数/样本总数

精确率(p)=正确识别的个体总数/识别的个体总数

召回率(r)=正确识别的个体总数/测试集存在的个体总数