机器学习——Day 1 机器学习介绍

Hook_sbw

已于 2024-04-24 10:47:50 修改

阅读量292

点赞数 3

文章标签：机器学习人工智能

于 2024-04-22 16:41:40 首次发布

本文链接：https://blog.csdn.net/aixuexidewu/article/details/138082159

版权

本文详细介绍了人工智能的三大核心概念：人工智能、机器学习（包括简介、学习过程和分类）、深度学习，以及机器学习的关键术语、常用算法分类（如监督学习、无监督学习、半监督学习和强化学习）、建模流程和特征工程的重要性。同时概述了机器学习的应用领域和发展历程，以及开发环境的选择。

摘要由CSDN通过智能技术生成

1.人工智能三大概念

1.1 人工智能（AI）

Artificial Intelligence(人工智能)全称为AI is the field that studies the synthesis and analysis ofcomputational agents that act intelligently 也就是人工智能是研究使用计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，主要包括计算机实现智能的原理、制造类似于人脑智能的计算机，使计算机能实现更高层次的应用。也就是伪智

人工智能，按照是增强我们脑力还是增强我们体力、是取代人的工作还是辅助人，可以根据应用场景划分成4个大的类别

1.2 机器学习（ML）

1.2.1简介机器学习

Machine Learning机器学习全称为Field of study that gives computers the ability to learn withoutbeing explicitly programmed根据机器学习泰斗、卡耐基梅隆大学的汤姆 ·米切尔 (Tom Mitchell) 教授的定义，机器学习是一门研究算法的学科，这些算法能够通过非显式编程 (non-explicit programming) 的形式，利用经验数据来提升某个任务的性能指标。

1.2.2机器如何学习

机器首先根据历史数据不断地修正得到合适的模型，当机器遇见新的问题时会根据历史数据中的规律对新的问题进行预测，输出结果。

1.3 深度学习（DL）

深度学习(DL, Deep Learning):，也叫深度神经网络，大脑仿生，设计一层一层的神经元模拟万事万物

1.4总结

简而言之，机器学习是一种实现人工智能的方法，深度学习是一种实现机器学习的技术，而生成对抗网络则是深度学习中的一种分类

2.机器学习的应用领域和发展史

2.1应用领域

图像识别和分类：例如人脸识别、图像检索、物体识别等。
自然语言处理：例如机器翻译、文本分类、语音识别等。
推荐系统：例如电商、社交媒体等平台中的商品推荐、内容推荐等。
医疗诊断：例如癌症诊断、疾病预测等。
金融风控：例如欺诈检测、信用评估等。
工业制造：例如质量控制、异常检测等。
自动驾驶：例如视觉感知、路况识别等。
游戏智能：例如游戏AI、机器人足球等。
网络安全：例如恶意代码检测、网络攻击识别等。
环境保护：例如气象预测、大气污染监测等。

2.2.发展史

2.3总结

应用领域总的可分为：

•计算机视觉CV：对人看到的东西进行理解

•自然语言处理：对人交流的东西进行理解

•数据挖掘和数据分析：也属于人工智能的范畴

发展史大致为：

•1956年人工智能元年

•2012年计算机视觉深度神经网络方法研究兴起

•2017年自然语言处理应用大幕拉开

•2022年chatGPT的出现，引起AIGC的发展

3.机器学习常用术语

3.1 样本、特征、标签

样本(sample)：一行数据就是一个样本；多个样本组成数据集；有时一条样本被叫成一条记录

特征(feature)：一列数据一个特征，有时也被称为属性

标签/目标(label/target)：模型要预测的那一列数据。本场景是就业薪资就业薪资与培训学科、作业考试、学历、工作经验、工作地点5个特征有关系特征如何理解（重点）：特征是从数据中抽取出来的，对结果预测有用的信息eg:房价预测、车图片识

3.2 训练集和测试集

数据集可划分两部分：训练集、测试集比例：8:2，7:3

训练集(trainingset)：用来训练模型（model）的数据集

测试集(testing set)：用来测试模型的数据集

3.3总结

1.样本和数据集

样本(sample)：一行数据就是一个样本

数据集dataset：多个样本组成数据集

2.特征(feature)

一列数据一个特征，有时也被称为属性

3.标签/目标(label/target)

模型要预测的那一列数据。

4.训练集划分

训练集用来训练模型、测试集用来测试评估模型。一般划分比例7:3~8:2

4.机器学习算法分类

4.1 有监督学习

监督学习（Supervised Learning）是机器学习中最常见的学习方式之一。监督学习通过对已有标记数据进行学习，训练模型能够从未标记数据中进行预测和分类。在监督学习中，每个样本都有标签（标记），模型可以利用这些标签来学习分类模型。

例如，一个模型需要识别手写数字，监督学习算法可以使用大量已经被标记好的手写数字图像作为训练集，每个图像都有一个标记，指明它是哪个数字。然后，该算法会自动从训练集中学习到数字之间的差异，使得在未知图像上也能够准确地识别数字。

监督学习应用广泛，可以应用于图像识别
、自然语言处理
、语音识别
、推荐系统等领域。

4.1.1优缺点

监督学习的优点在于：

可以通过大量已有标记数据训练模型，使得模型的预测结果更加准确。
可以对数据进行分类和预测。

但是，监督学习也有一些缺点：

需要大量的已标记数据，而且需要人工进行标记。
模型只能预测已知类别，对于未知类别的数据无法进行有效预测。

4.2无监督学习

无监督学习（Unsupervised Learning）是一种机器学习技术，用于处理未标记的数据，即没有给定输出标签的数据。无监督学习的目标是学习数据中的模式和结构，以便在未知数据上进行分类和预测。

例如，在无监督学习中，模型可以使用聚类算法对数据进行分组，每个组内的数据具有相似的特征。这种方法可以用于分析消费者行为模式、分析天文数据、分析文本数据等。

4.2.1 优缺点

无监督学习的优点在于：

无需标记大量数据，降低了数据标记的成本。
可以自动发现数据的结构和模式，可以帮助解决一些特定问题，如异常检测、聚类分析等。

但是，无监督学习也有一些缺点：

无法利用标记数据进行训练，因此预测结果可能不够准确。
很难对生成的结果进行验证和解释，需要人工进行进一步分析。

4.3半监督学习

半监督学习（Semi-supervised Learning）是介于监督学习和无监督学习之间的一种学习方式。半监督学习利用一小部分已标记数据和大量未标记数据进行训练，以提高模型的预测能力。

例如，在半监督学习中，可以使用少量已标记数据来训练模型，然后使用未标记数据来进一步完善模型。这种方法可以用于文本分类、图像识别等任务。

4.3.1优缺点

半监督学习的优点在于：

可以减少标记数据的数量，降低数据标记的成本。
可以利用未标记数据来提高模型的预测能力，使预测结果更加准确。

但是，半监督学习也有一些缺点：

需要大量未标记数据，模型可能会过度拟合未标记数据，导致预测结果不准确。
无法处理未知类别的数据。

4.4强化学习

强化学习（Reinforcement Learning）是一种机器学习技术，用于培养智能体（Agent）通过与环境的交互来学习最佳决策策略。强化学习的目标是使智能体获得最大的累积奖励，从而学会在特定环境下做出最佳决策。

例如，在强化学习中，可以使用Q-learning算法训练一个智能体来玩某个游戏。该智能体需要不断地与游戏环境交互，学习最佳策略，使游戏得分最高。

4.4.1 优缺点

强化学习的优点在于：

可以处理与环境交互的问题，如机器人导航、自动驾驶等。
可以学习最佳策略，使得智能体在特定环境下做出最优决策。

但是，强化学习也有一些缺点：

训练时间较长，需要进行大量的试验和训练。
需要精心设计奖励函数，使得智能体能够学习到最佳策略。

4.5 总结

1.按照学习方式分类可分为:监督学习,无监督学习,半监督学习,强化学习

2.监督学习:输入训练集数据包含输入特征值和目标值回归:函数的输出是一个连续的值分类:函数的输出是有限个离散值

3.无监督学习:输入训练集数据是由输入特征值组成，没有目标值比如：聚类根据样本间的相似性对样本集进行分类

4.半监督学习:训练集同时包含有目标值的样本数据和不含有目标值的样本数据

5.强化学习:智能体不断与环境进行交互，通过获取最大奖励的方式（试错的方式）来获得最佳策略；主要包含四个元素：Agent(智能体)，环境(Environment)，行动(Action)，奖励(reward)

5.机器学习建模流程

5.1流程

1. 数据获取

使用开源数据集。互联网上有数千个开源数据集，可以免费使用、易于查找并且使用起来非常省时。

抓取网页数据。使用网络抓取工具可以从网站上提取产品描述和价格等数据。

手动数据生成。手动收集数据，与合成数据集非常相似，不同之处在于它包含真实数据，并且需要手动而不是自动生成数据。

2. 数据预处理

场景解析完，选择适合处理此类数据的算法后，需要对数据进行预处理——就是对数据进行清洗工作，对空值，乱码进行处理。

数据预处理的主要目的就是：减少噪音数据对训练数据的影响。

3. 特征工程

特征工程是机器学习中最重要的一部分，因为根据已有的训练数据，可选用的算法是有限的，那么在同样的算法下特征的选取是不同的，100个人对一件事情会有100种看法，也就有100种特征，最后特征的质量决定模型的好坏。特征工程需要做的包括：特征抽象，特征重要性的评估，特征衍生，特征降维。

4. 机器学习（模拟训练）

在经过以上过成后，进入训练模块，生成模型。

训练模块：使用线性回归，逻辑回归，决策树，GBDT

5. 模型评估

回归评测指标

分类评测指标

聚类评测指标

5.2 总结

机器学习建模的一般步骤

• 获取数据：搜集与完成机器学习任务相关的数据集

• 数据基本处理：数据集中异常值,缺失值的处理等

• 特征工程：对数据特征进行提取、转成向量，让模型达到最好的效果

• 机器学习(模型训练)：选择合适的算法对模型进行训练

• 根据不同的任务来选中不同的算法；有监督学习,无监督学习,半监督学习,强化学习

• 模型评估：评估效果好上线服务,评估效果不好则重复上述步骤