导论
人工智能>机器学习>深度学习
人工智能:让机器变得像人一样拥有智能的学科。
机器学习:让计算机像人一样能从数据中总结出规律的一类算法 。
深度学习:神经网络一类的机器学习算法。
人工智能领域有:
计算机视觉(Computer Vision,CV):让计算机拥有视觉能力
自然语言处理(Natural Language Processing, NLP):让计算机拥有语言能留
推荐系统(Recommender System, RS):让计算精确分析出人的喜好
绪论
人靠经验来预测,而机器学习中计算机靠数据产生模型来预测。
因此机器学习的主要内容是用计算机在数据中产生“模型”的算法,即“学习算法”(learing algorithm)。
基本术语
数据集(data set) - 样本的集合。
示例(instance)或样本(sample) - 单个事件或样本的描述。
属性(attribute)或特征(feature) - 反映事件或对象在某方面的表现或特征的事项。
属性值(attribute value) - 属性上的取值。
属性空间(attribute space)、样本空间(sample space)、输入空间 - 属性张成的空间。例如我们把人的身高、体重和年龄作为三个坐标轴,则它们可以张成一个用于描述人的三维空间,每个人都能在空间中找到自己的坐标位置。而空间中每个点都有一个坐标向量,因此我们可以把一个示例(样本)称为”特征向量“。
数据集 > 样本 > 属性 > 属性值 __(作为坐标)__ 属性空间 > 特征向量(样本)
公式描述:数据集-D = {x1,x2,...,xm} m个样本;
样本(也称为特征向量ljllllll)- xi = {xi1;xi2;xi3;...;xid} d个属性;
xij = 第i个样本在第j个属性上的值;
d - 样本空间的维数。
由示例得到的结果称为”标记“。而带有了标记信息的示例,则称为”样例“。
第i个样例可以表示为(xi,yi),其中yi<Y 是示例xi的标记,Y是所有标记的集合,亦称为”标记空间(label space)“或“输出空间”。
分类(classification):我们想要预测的值是离散值。如好瓜、坏瓜。
回归(regression):我们想要预测的值是连续值。如瓜的成熟度。
二分类(binary classification):只涉及两个类别,其中一个为“正类”(positive class),另一个类为“反类”(negative class)。
多分类(multi-class classification):涉及多个分类。
预测任务:通过对训练集{(x1,y1),(x2,y2),...,(xm,ym)}进行学习,建立一个从输入空间X到输出空间Y的映射 f : X->Y.
对于二分类任务,通常令Y={-1,+1}或{0,1};对多分类任务,|Y|>2;对于回归任务,Y=R,R=实数集。
聚类(clusterung):将训练集中的数据分成若干组。每组称为一个“簇”(cluster)。
监督学习(supervised learing):训练数据拥有标记信息。常用于分类和回归。
无监督学习(unsupervised leaing):训练数据没有标记信息。常用于聚类。
学得模型适用于新样本的能力,称为“泛化(generalization)能力”。
现实中可能有多个假设与训练集一致,即存在一个与训练集一致的“假设集合”,我们称之为“版本空间(version space)”
由于版本空间的存在,机器学习在学习过程中必须有对某种类型假设的偏好,称为“归纳偏好”(inductive bias)。
对于一个学习算法A,若它在某些问题上比学习算法B好,则必然存在另一些问题,在那里B比A好。这个结论对任何学习算法均成立。
脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题。学习算法自身的归纳偏好与问题是否相配,往往起到决定性的作用。
机器学习提供数据分析能力,云计算提供数据处理能力,众包提供数据标记能力。
机器学习的一般流程如下:
首先收集若干样本(假设此时由100个),然后将其分为训练样本(80个)和测试样本(20个),其中80个训练样本构成的集合称为“训练集”,20个训练样本构成的集合称为“测试集”,接着选用某个机器学习算法,让其在训练集上进行“学习”(或称为训练),然后产出“模型”(或称为“学习器”),最后用测试集来测试模型的效果。
执行上述流程时,我们默认样本背后存在某种潜在规律,我们称这种潜在规律为“真相”。但该规律通常并不一定就是所谓的真相,所以也将其称为“假设”。
数据决定模型的上限,而算法则是让模型无限逼近上限。
习题:
机器学习在互联网搜索中的那些环节起到作用?
机器学习可以帮助搜索引擎更好地理解用户的查询意图,提供更精准和相关的搜索结果。
机器学习可以帮助搜索引擎处理多种类型和格式的数据,如文本、图片、视频等,并从中提取有价值的信息。
机器学习可以帮助搜索引擎优化网页排序算法,根据用户的偏好和行为进行个性化推荐。
机器学习可以帮助搜索引擎实现对话式智能交互,提高用户体验和满意度。
机器学习可以帮助搜索引擎过滤垃圾网站和广告网页,提高搜索质量和安全性。
参考文献:
【1】【吃瓜教程】《机器学习公式详解》(南瓜书)与西瓜书公式推导直播合集:第1章-绪论_哔哩哔哩_bilibili
【2】西瓜书(机器学习)- 周志华