机器学习基础

1 常见学习方法

无监督学习:输入数据没有维度标签,输出通常是自动聚合的不同类别的标签。分类是自动进行的,只要有数据就会找到相近特征,典型算法是聚类算法

        举个栗子:让计算机将一篮水果中的同类别水果归到一起,不知道水果种类(标签),首先它需要得到各个水果的特征数据,并表示为数学向量,假设此向量包含了颜色、味道、形状等特征。然后将相似向量(距离较近)的水果归为一类。

监督学习:已知输入数据的类别(标签),它可根据已知数据的标签预测未知数据的标签,典型的应用场景是推荐和预测,是应用最为广泛的。

        自监督学习解决的是监督学习过于依赖大规模标注数据集的难题,能从大规模未标记数据中学习特征,无需使用任何人工标注数据。

        举个栗子:还是上面的水果问题,这次知道水果标签(苹果、香蕉等),计算机学习这些标签和特征数据之间的联系,如发现红色、甜的、圆的很有可能是苹果,黄的、甜的、长条的很有可能是香蕉。学习好以后,就得到一个可判断水果类别的模型。

强化学习:输入是一些数据的状态、动作以及环境交互的反馈,输出是当前状态的最佳动作。目的是让长期奖励回报最大,不断追求更好。相比前两种,强化学习是动态的学习过程,无明确目标,对结果也无精确衡量标准。带有决策属性,连续选择一些行为(没有任何标签和数据告诉计算机该怎么做),只能尝试做些行动然后根据反馈改进。

有点像闭环控制,没错,许多控制类和决策类问题都属于强化学习问题例如无人机实现稳定飞行,或让人工智能在电子游戏中取得高分。

2 回归 

        回归是一种监督学习算法,是一种分析变量之间相互关系的一种方法。如水果价格与水果重量、房价和房价面积。

        数学上,回归常与数据预测联系在一起,但实际上该词本身不存在预测含义,只是由于某些原因该词被保留了下来。

算法目的一般有两个:1 解释已有规律。用已知数据找到合适方程表达式  。2 预测未知和未来。数学方程不仅可以表示关联性,也可对数据样本进行预测。下面以一元线性回归为例:

一元线性回归只研究一个自变量X与一个因变量Y之间的关系。假设有一组数据,有X和Y两个变量,将这些数据画在函数图形上,可得到散点图,可看到这些数据点似乎聚集在直线附近,这条隐藏直线就是要求解的回归方程。

①假设Y与X是线性关系Y=\theta _{_{0}}+\vartheta {_{1}}X+\varepsilon。其中是随机误差,是所有不确定因素影响的总和,其值通常不可观测。数学上是把它看作随机噪声,假定其服从正态分布;至于参数和,思路是找到一条直线(如果数据是多维的,则需要找到一个平面),使得样本数据到这条直线的距离平方和尽可能小——最小二乘拟合法(最小平方法)。

②确定了Y与X的表达式后,还需要对回归方程进行假设检验,因为在计算之前它们的线性关系是假设的。要借助统计方法,对回归方程的参数进行假设检验,以验证Y与X是否真的是线性关系。

3 分类

分类是一种监督学习算法,机器学习中比较广泛的一类应用,它根据输入数据的特点将其归到有限个提前定义好的类别中,输入输出都是离散变量。以文本分类为例,输入是文本的特征向量,输出是文本的类别。

常见的分类算法有:人工神经网络算法、决策树算法、支持向量机、k邻近法、朴素贝叶斯、逻辑回归算法等。

分类评价方法

        建立分类模型的第一步是找到一种评价分类效果的方法。对于一个分类模型,人们有时看重它判断正确的能力,有时则更关注它决策错误的风险。这需要定义两个重要指标——查准率和查全率。

查准率也称准确率、精度,用来衡量分类本身的准确度。查全率称为召回率,用来衡量分类正确的覆盖度。对于一个二分类问题(分类结果只有“真”和“假”两种)。

查准率表示在认为是“真”的样例中,实际到底有多少是“真”;查全率表示在所有“真”的样例中,实际找出多少“真”。有时,也用查准率和查全率的调和平均值作为综合评价的指标。

通常情况下,这两个指标不可兼得。

分类算法-----K近邻算法

        K邻近算法即KNN算法,它通过“测量距离”分类。数学上经常用“距离”区分数据,这里指的是“欧氏距离”,在二维平面上欧式距离表示两个点之间的几何平面距离


 


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值