【机器学习】第一章 绪论

一、 什么是机器学习

1.1 定义

机器学习是一门研究如何使计算机系统在没有明确编程的情况下,从数据中学习和改进性能的学科。

1.2 解释

在这里插入图片描述
1)机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
2)在计算机系统中,“经验"通常以"数据"形式存在,因此机器学习所研究的主要内容,是关于在计算机上从数据中产生"模型” (model) 的算法,即"学习算法" (learning algorithm)。
3)有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断。

二、 机器学习的工作流程

在这里插入图片描述

2.1 数据收集与清洗

重要性: 数据是机器学习模型的基石,决定了模型能否有效地学习和预测。高质量的数据收集和清洗可以大大提升模型的性能。

  • 数据收集: 从不同来源获取数据,可以是数据库、文件、API等,确保数据能够代表问题领域的全面性和多样性。

  • 数据清洗: 处理缺失值、异常值和噪声数据,确保数据质量。这一步骤的目的是为了使数据集适合用于训练模型,减少模型学习的误导性。

2.2 特征工程

重要性: 特征工程决定了模型能否从数据中学习到有效的模式和规律。

  • 特征选择: 选择最相关的特征以提高模型效果,避免过度拟合。

  • 特征提取与转换: 将原始数据转换为更适合模型学习的形式,如文本转换为词袋模型、图像转换为特征向量等。

2.3 模型选择与训练

重要性: 选择合适的模型和训练参数直接影响模型的性能。

  • 模型选择: 根据问题类型(分类、回归等)、数据规模和特征性质选择合适的模型,如决策树、神经网络等。

  • 模型训练: 使用训练数据对模型进行拟合,调整模型参数以最小化预测误差。

2.4 模型评估与优化

重要性: 评估模型的泛化能力和优化模型以提高预测准确性是机器学习过程中不可或缺的步骤。

  • 交叉验证: 将训练数据分成多个子集,轮流作为验证集来评估模型的泛化能力。

  • 评估指标: 使用准确率、精确率、召回率、均方误差等指标评估模型的表现。

  • 模型优化: 调整模型的超参数(如学习率、正则化参数等)、特征选择策略或使用集成学习等技术来优化模型性能。

三、数据集的相关知识

3.1 定义

数据集(dataset)是机器学习和数据分析中的一个基础概念,它指的是一组被组织成一个整体的数据集合,用于训练模型、评估模型或进行统计分析。

数据集的形式多种多样,适应不同类型和用途的数据分析和机器学习任务。常见的数据集有表格、文本、图像、视频、时间序列、音频和地理空间等数据集。

3.2 数据集的组成

以表格数据集为例
在这里插入图片描述

其中

样本(Samples):样本是数据集中的基本单位,通常代表现实世界中的个体或事件。如上表中,每一行数据称为一个样本

特征(Features):特征是描述每个样本的属性或变量。是用来描述样本的不同方面或特性的输入变量。如上表中,房屋占地,房屋所处地段称为特征

标签(Labels): 标签是目标变量,是我们希望模型预测或分类的值。如上表中,房价就可称为标签。

注:数据也可没有标签值

3.3数据集的划分

在产生和评估模型之前,首先需要将数据集划分为训练集和测试集,通常比例为 60-80% 的数据作为训练集,剩余的作为测试集。

  • 训练集(Training Set):用于模型的训练和参数调整。
  • 测试集(Test Set):用于评估最终模型的泛化能力,模型在这个数据集上没有进行任何训练或调整。

四、机器学习算法分类

4.1 监督学习

特点:数据同时包含输入特征 ( x ) 和输出标签 ( y )

  • 回归(Regression model):预测连续值输出
    实例:根据房屋的特征预测其销售价格

  • 分类(Classification model):预测离散类标签
    实例:基于医疗数据预测患者是否患有癌症或糖尿病等疾病

4.2无监督学习

特点:数据通常只有输入 ( x ),没有对应的输出标签 ( y )

  • 聚类算法:获取没有标签的数据并尝试自动将他们分组到集群中
    实例:“人以类聚,物以群分”
  • 异常检测:检测异常事件
  • 降维:大数据压缩成较小的数据集,并确保丢失尽可能少的信息

其他:半监督学习,强化学习等

  • 7
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值