[吃瓜教程] 机器学习笔记第一天

导论
人工智能>机器学习>深度学习

人工智能:让机器变得像人一样拥有智能的学科。

机器学习:让计算机像人一样能从数据中总结出规律的一类算法   。

深度学习:神经网络一类的机器学习算法。

人工智能领域有:
计算机视觉(Computer Vision,CV):让计算机拥有视觉能力

自然语言处理(Natural Language Processing, NLP):让计算机拥有语言能留

推荐系统(Recommender System, RS):让计算精确分析出人的喜好

绪论

人靠经验来预测,而机器学习中计算机靠数据产生模型来预测。

因此机器学习的主要内容是用计算机在数据中产生“模型”的算法,即“学习算法”(learing algorithm)。

基本术语

数据集(data set) - 样本的集合。

示例(instance)或样本(sample) - 单个事件或样本的描述。

属性(attribute)或特征(feature) - 反映事件或对象在某方面的表现或特征的事项。

属性值(attribute value) - 属性上的取值。

属性空间(attribute space)、样本空间(sample space)、输入空间 - 属性张成的空间。例如我们把人的身高、体重和年龄作为三个坐标轴,则它们可以张成一个用于描述人的三维空间,每个人都能在空间中找到自己的坐标位置。而空间中每个点都有一个坐标向量,因此我们可以把一个示例(样本)称为”特征向量“。

数据集 > 样本 > 属性 > 属性值 __(作为坐标)__ 属性空间 > 特征向量(样本)

公式描述:_{}数据集-D = {x1,x2,...,xm} m个样本;

                样本(也称为特征向量ljllllll)- xi = {xi1;xi2;xi3;...;xid} d个属性;

                xij = 第i个样本在第j个属性上的值;

                d - 样本空间的维数。

由示例得到的结果称为”标记“。而带有了标记信息的示例,则称为”样例“。

第i个样例可以表示为(xi,yi),其中yi<Y 是示例xi的标记,Y是所有标记的集合,亦称为”标记空间(label space)“或“输出空间”。

分类(classification):我们想要预测的值是离散值。如好瓜、坏瓜。

回归(regression):我们想要预测的值是连续值。如瓜的成熟度。

二分类(binary classification):只涉及两个类别,其中一个为“正类”(positive class),另一个类为“反类”(negative class)。

多分类(multi-class classification):涉及多个分类。

预测任务:通过对训练集{(x1,y1),(x2,y2),...,(xm,ym)}进行学习,建立一个从输入空间X到输出空间Y的映射 f : X->Y.

对于二分类任务,通常令Y={-1,+1}或{0,1};对多分类任务,|Y|>2;对于回归任务,Y=R,R=实数集。

聚类(clusterung):将训练集中的数据分成若干组。每组称为一个“簇”(cluster)。

监督学习(supervised learing):训练数据拥有标记信息。常用于分类和回归。

无监督学习(unsupervised leaing):训练数据没有标记信息。常用于聚类。

学得模型适用于新样本的能力,称为“泛化(generalization)能力”。

现实中可能有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,我们称之为“版本空间(version space)”

由于版本空间的存在,机器学习在学习过程中必须有对某种类型假设的偏好,称为“归纳偏好”(inductive bias)。

对于一个学习算法A,若它在某些问题上比学习算法B好,则必然存在另一些问题,在那里B比A好。这个结论对任何学习算法均成立。

脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题。学习算法自身的归纳偏好与问题是否相配,往往起到决定性的作用。

机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。

机器学习的一般流程如下:
首先收集若干样本(假设此时由100个),然后将其分为训练样本(80个)和测试样本(20个),其中80个训练样本构成的集合称为“训练集”,20个训练样本构成的集合称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为训练),然后产出“模型”(或称为“学习器”),最后用测试集来测试模型的效果。

执行上述流程时,我们默认样本背后存在某种潜在规律,我们称这种潜在规律为“真相”。但该规律通常并不一定就是所谓的真相,所以也将其称为“假设”。

数据决定模型的上限,而算法则是让模型无限逼近上限。

习题:

机器学习在互联网搜索中的那些环节起到作用?

机器学习可以帮助搜索引擎更好地理解用户的查询意图,提供更精准和相关的搜索结果。
机器学习可以帮助搜索引擎处理多种类型和格式的数据,如文本、图片、视频等,并从中提取有价值的信息。
机器学习可以帮助搜索引擎优化网页排序算法,根据用户的偏好和行为进行个性化推荐。
机器学习可以帮助搜索引擎实现对话式智能交互,提高用户体验和满意度。
机器学习可以帮助搜索引擎过滤垃圾网站和广告网页,提高搜索质量和安全性。

参考文献:

【1】【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集:第1章-绪论_哔哩哔哩_bilibili

【2】西瓜书(机器学习)- 周志华

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值