机器学习基础概念

最新推荐文章于 2024-07-12 15:56:49 发布

爱果者daodan

最新推荐文章于 2024-07-12 15:56:49 发布

阅读量92

点赞数

分类专栏：笔记文章标签：机器学习人工智能数据挖掘

本文链接：https://blog.csdn.net/qq_43259400/article/details/124803048

版权

笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

欠拟合：模型的预测准确性不够

过拟合：算法模型的泛化性不太好（在训练集准确性很好，但在测试集上的效果不太好），及过度概括，如进行猫和狗进行分类时，训练数据中没有黄色的狗，但是猫大多是黄色的，这时机器将黄色的这个特征过度化，及机器认为所有的黄色都是猫

机器学习过程：向一个机器投入燃料(数据)通过马达（假设函数‘模型‘）变成动力（’预测结果‘）

机器学习常见术语：

模型:机器学习的两大组成部分模型和数据集，而模型就像一台机器，它有很多操作建（参数），通过不同的组合，可以产生不同的输出，以knn算法为例，它有不同的参数，如k，如距离，有很多

数据集：机器学习工作的原料，没有它，这个机器就是一个废铁

数据：数据集是数据的集合，在机器学习中，把一条数据叫做一个样本，样本中通常包括多个特征，如一个人，它有身高，体重，年龄‘‘’‘’‘等n个特征

特征：机器学习中，特征是某个对象的几个记录维度

假设函数(Hypotheisis Funcition)：机器学习的模型训练依靠数据，但数据本身无法为模型训练提供动力，所以需要假设函数将把数据变成动力，及我们喂给机器数据，机器通过假设函数吐出一个结果

损失函数（Loss Function）：机器吐出的结果，需要我们判决它到底好不好，如我们要预测年龄，结果机器学习模型返回1，1，1，1。我们在这种情况下，一下子就知道这个模型不好，但如果不是预测年龄，而返回的结果也不是111这种可以一下子看出错误的模型，我们就要用损失函数，来判断模型优劣，损失函数越大，模型效果越差

优化方法：因为在现实世界，我们我们不可能得到100%的预测结果，有人说：如果一个算法能预测人类60%的行为，那么这个算法就是最好的算法，当然机器学习能不能预测60%我不知道，只是我们要知道我们的机器学习算法是不能100%预测，我们的目的是，要损失函数最小，而让损失函数向最小的方向前进的方法就是优化方法

机器学习过程：

向模型喂入数据，通过假设函数，得到结果，将结果投入损失函数，返回损失值，将损失值投入优化方法调参重复

机器学习的一大亮点：善于处理传统方法而言太复杂或无法解决的问题

机器学习分类：有监督，无监督，半监督，和强化学习

有监督：及有参考答案，计算数据存在标记

常见算法：k-近邻，线性回归，逻辑回归，支持向量机，决策树，随机森林，神经网络

无监督：无参考答案，计算数据无标记

常见算法：聚类，k-均值，DBSCAN,分层聚类(HCA),...

半监督：通常数据标注是很耗时的且昂贵的，所以，你往往得到大量未标记的和少量标记的数据，有些算法通常可以处理部分有标记的数据，叫半监督学习（没研究过，所以不是太了解），大多数半监督学习都是无监督和有监督的结合

强化学习则是一个非常与众不同的“巨兽”。它的学习系统，能够观察环境，做出选择，执行动作，并获得回报，所以它必须自行学习什么是最好的策略，从而随着时间的推移获得最大的回报(没有太大的研究）

划分测试集和训练集的意义：

一个模型的好坏，主要看的是他的模型泛化能力，而将数据划分成训练数据和测试数据，顾名思义，训练数据用做训练，测试数据用作测试

爱果者daodan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础概念

欠拟合：模型的预测准确性不够过拟合：算法模型的泛化性不太好（在训练集准确性很好，但在测试集上的效果不太好），及过度概括，如进行猫和狗进行分类时，训练数据中没有黄色的狗，但是猫大多是黄色的，这时机器将黄色的这个特征过度化，及机器认为所有的黄色都是猫机器学习过程：向一个机器投入燃料(数据)通过马达（假设函数‘模型‘）变成动力（’预测结果‘）机器学习常见术语：模型:机器学习的两大组成部分模型和数据集，而模型就像一台机器，它有很多操作建（参数），通过不同的组合，可以产生不同的输出，以knn算法为例，
复制链接

扫一扫