机器学习char1 机器学习基础

最新推荐文章于 2024-07-17 21:23:56 发布

是阿朱啊

最新推荐文章于 2024-07-17 21:23:56 发布

阅读量386

点赞数

分类专栏：机器学习实战-Peter Harrington 文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/sinat_42303243/article/details/106882664

版权

机器学习实战-char1 机器学习基础

主要讨论的是监督学习（supervised learning），在监督学习的过程中，只需要给定输入样本集，机器就可以从中推演出指定目标变量的可能结果。

监督学习一般使用两种类型的目标变量：标称型和数值型。标称型目标变量只在有限目标集中取值，例如真与假、动物分类集合{爬行类、鱼类、哺乳类、两栖类}；数值型目标变量可以从无限的数值集合中取值，如0.2、199、2000。

简单来说，机器学习就是把无序的数据转换成有用的信息。

如今技术的进步使得获得数据成为一件易事，当人们面对海量的数据时，如何从海量数据中抽取到有价值的信息将是一件非常重要的是课题。

在过去的半个世纪，发达国家的多数岗位都已从体力劳动转化为脑力劳动。大量的经济活动都依赖于信息，我们不能在海量信息中迷失，机器学习将是我们有力的武器，使我们从中获取到有用信息。

下面将要介绍一些术语。

	体重（克）	翼展（厘米）	脚蹼	后背颜色	种属
1	1000.1	125.0	无	棕色	红尾鵟
2	3000.7	200.0	无	灰色	鹭鹰
3	3300.0	220.3	无	灰色	鹭鹰
4	4100.0	136.0	有	黑色	普通潜鸟
5	3.0	11.0	无	绿色	瑰丽蜂鸟
6	570.0	75.0	无	黑色	象牙喙啄木鸟

分类：机器学习的主要任务就是分类。通过传感器拍摄到一直鸟，我们可获得上面的几项信息，计算机通过这些信息来判别这只鸟属于哪一类，这就是分类。
训练集：当已经决定用某个机器学习算法进行分类，首先要做的就是算法训练，即学习如何分类。通常我们为算法输入大量输入大量已分类数据作为算法的训练集。（特征或者属性一般是训练样本集的列，他们是独立测量的结果，多个特征联系在一起共同组成一个训练样本。）
目标变量：目标变量是机器学习算法的预测结果，在分类算法中目标变量的类型通常是标称型的，而在回归算法中通常是连续型。训练样本集必须确定知道目标变量的值，以便机器学习算法可以发现特征和目标变量之间的关系。
训练数据和测试数据：训练数据是机器学习算法用来学习如何分类的，测试数据是训练完成后用来观察算法的效果的。输入测试样本时无需样本的目标变量，有程序决定样本属于哪个类别，比较测试样本预测的目标变量域实际样本类别之间的差别就可以得到算法的实际精确度。

机器学习的任务主要是分类和回归。分类就是讲实例数据划分到合适的类别中。回归主要用于预测数值型数据。分类和回归属于监督学习，之所以称为监督学习，是因为这类算法必须知道预测什么，及目标变量的分类信息。

与监督学习相对应的是无监督学习，此时数据没有类别信息，也不会给定目标值。

在无监督学习中，将数据集合分成由类似的对象组成的多个类别的过程称为聚类；将寻找描述数据统计值的过程称为密度估计。

下表列出了机器学习的主要任务，以及解决相应问题的算法。

关注