[吃瓜教程] 机器学习笔记第一天

咋学都不累zgc

已于 2023-08-15 17:25:06 修改

阅读量82

点赞数 2

文章标签：机器学习笔记人工智能

于 2023-08-15 15:30:00 首次发布

本文链接：https://blog.csdn.net/m0_46392159/article/details/132271822

版权

导论
人工智能>机器学习>深度学习

人工智能：让机器变得像人一样拥有智能的学科。

机器学习：让计算机像人一样能从数据中总结出规律的一类算法。

深度学习：神经网络一类的机器学习算法。

人工智能领域有：
计算机视觉（Computer Vision,CV）：让计算机拥有视觉能力

自然语言处理（Natural Language Processing, NLP）:让计算机拥有语言能留

推荐系统（Recommender System, RS）:让计算精确分析出人的喜好

绪论

人靠经验来预测，而机器学习中计算机靠数据产生模型来预测。

因此机器学习的主要内容是用计算机在数据中产生“模型”的算法，即“学习算法”（learing algorithm）。

基本术语

数据集(data set) - 样本的集合。

示例(instance)或样本(sample) - 单个事件或样本的描述。

属性(attribute)或特征(feature) - 反映事件或对象在某方面的表现或特征的事项。

属性值(attribute value) - 属性上的取值。

属性空间(attribute space)、样本空间(sample space)、输入空间 - 属性张成的空间。例如我们把人的身高、体重和年龄作为三个坐标轴，则它们可以张成一个用于描述人的三维空间，每个人都能在空间中找到自己的坐标位置。而空间中每个点都有一个坐标向量，因此我们可以把一个示例（样本）称为”特征向量“。

数据集 > 样本 > 属性 > 属性值 __(作为坐标)__ 属性空间 > 特征向量（样本）

公式描述： $_{}$ 数据集-D = {x1,x2,...,xm} m个样本；

样本（也称为特征向量ljllllll）- xi = {xi1;xi2;xi3;...;xid} d个属性；

xij = 第i个样本在第j个属性上的值；

d - 样本空间的维数。

由示例得到的结果称为”标记“。而带有了标记信息的示例，则称为”样例“。

第i个样例可以表示为(xi,yi),其中yi<Y 是示例xi的标记，Y是所有标记的集合，亦称为”标记空间（label space）“或“输出空间”。

分类（classification）：我们想要预测的值是离散值。如好瓜、坏瓜。

回归（regression）：我们想要预测的值是连续值。如瓜的成熟度。

二分类（binary classification）：只涉及两个类别，其中一个为“正类”（positive class），另一个类为“反类”（negative class）。

多分类（multi-class classification）：涉及多个分类。

预测任务：通过对训练集{(x1,y1),(x2,y2),...,(xm,ym)}进行学习，建立一个从输入空间X到输出空间Y的映射 f : X->Y.

对于二分类任务，通常令Y={-1，+1}或{0，1}；对多分类任务，|Y|>2；对于回归任务，Y=R，R=实数集。

聚类（clusterung）：将训练集中的数据分成若干组。每组称为一个“簇”（cluster）。

监督学习（supervised learing）：训练数据拥有标记信息。常用于分类和回归。

无监督学习（unsupervised leaing）：训练数据没有标记信息。常用于聚类。

学得模型适用于新样本的能力，称为“泛化（generalization）能力”。

现实中可能有多个假设与训练集一致，即存在一个与训练集一致的“假设集合”，我们称之为“版本空间（version space）”

由于版本空间的存在，机器学习在学习过程中必须有对某种类型假设的偏好，称为“归纳偏好”（inductive bias）。

对于一个学习算法A，若它在某些问题上比学习算法B好，则必然存在另一些问题，在那里B比A好。这个结论对任何学习算法均成立。

脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义，因为若考虑所有潜在问题，则所有学习算法都一样好。要谈论算法的相对优劣，必须要针对具体的学习问题。学习算法自身的归纳偏好与问题是否相配，往往起到决定性的作用。

机器学习提供数据分析能力，云计算提供数据处理能力，众包提供数据标记能力。

机器学习的一般流程如下：
首先收集若干样本（假设此时由100个），然后将其分为训练样本（80个）和测试样本（20个），其中80个训练样本构成的集合称为“训练集”，20个训练样本构成的集合称为“测试集”，接着选用某个机器学习算法，让其在训练集上进行“学习”（或称为训练），然后产出“模型”（或称为“学习器”），最后用测试集来测试模型的效果。

执行上述流程时，我们默认样本背后存在某种潜在规律，我们称这种潜在规律为“真相”。但该规律通常并不一定就是所谓的真相，所以也将其称为“假设”。

数据决定模型的上限，而算法则是让模型无限逼近上限。

习题：

机器学习在互联网搜索中的那些环节起到作用？

机器学习可以帮助搜索引擎更好地理解用户的查询意图，提供更精准和相关的搜索结果。
机器学习可以帮助搜索引擎处理多种类型和格式的数据，如文本、图片、视频等，并从中提取有价值的信息。
机器学习可以帮助搜索引擎优化网页排序算法，根据用户的偏好和行为进行个性化推荐。
机器学习可以帮助搜索引擎实现对话式智能交互，提高用户体验和满意度。
机器学习可以帮助搜索引擎过滤垃圾网站和广告网页，提高搜索质量和安全性。

参考文献：

【1】【吃瓜教程】《机器学习公式详解》（南瓜书）与西瓜书公式推导直播合集：第1章-绪论_哔哩哔哩_bilibili

【2】西瓜书（机器学习）- 周志华

咋学都不累zgc

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[吃瓜教程] 机器学习笔记第一天

二分类（binary classification）：只涉及两个类别，其中一个为“正类”（positive class），另一个类为“反类”（negative class）。第i个样例可以表示为(xi,yi),其中yiY.对于回归任务，Y=R，R=实数集。
复制链接

扫一扫