最近在看一本机器学习的书,在跟这里面在学,记个博客就当做做笔记吧~
现在主要讨论一下 监督学习, 在监督学习里面,我们只需要给定输入样本集,机器就可以从中推演出目标变量的可能结果。所以监督学习相对来说比较简单,机器只需要从输入的数据中预测合适的模型,并且从中计算出目标变量的结果。
然后,关于监督学习的目标变量: 标称型和数值型。 两者一个很明显的差别在于 : 标称型变量的的结果只有在 有限集中间进行取值, 如 真与假,食物分类集合,动物分类集合;然而 数值型目标变量就可以从无限的数值集合中进行取值,如小数的集合,等等. 而且数值型变量通常用于回归分析。
机器学习就是将 无序的数据转换为有用的信息! 所以机器学习对于任何需要 解释并且操作数据 的领域都很有用。
机器学习会用到统计学知识,以及需要大量分类好的数据为基础。
然后机器学习的主要任务就是进行分类,按照特征进行分类。这里的特征是指事物的属性,这些属性往往是区分其他相类似事物的重要属性。。。应该容易理解吧 许多机器学习算法都非常善于分类,如果我们决定了要用哪个机器学习算法进行分类,, 首先要做的就是 算法训练,即学习如何进行分类,通常我们将算法输入的大量已经分类好的数据作为算法的 训练集, 就是一个针对这个算法的数据样本集合,训练样本中会包含一个 目标变量,这个目标变量就是机器学习算法的预测结果,在分类算法中,目标变量的类型通常都是 标称型的。 为了测试机器学习算法的效果,通常会使用两套独立的样本集, 分别是 训练数据和测试数据。 训练数据作为输入,测试数据用于检测结果。
上面说了 机器学习的主要任务就是进行分类,但还有另外一个任务就是回归,它主要用于预测数值型数据。 分类和回归都都属于监督学习,之所以称为监督学习, 是因为这一类算法必须知道要预测什么,就是目标变量和分类信息。
与监督学习相对应的就是 无监督学习,这类数据没有类别信息,也不会给定目标值。 无监督学习中,有一个概念叫做 聚类, 这个就是数据集合分类成有类似的对象组成的多个类的的过程。(似乎听起来。。有点绕。。。) 。 还有一个概念叫做 密度估计, 这个是用于寻找描述数据统计值的过程。
使用机器学习以及选择机器学习算法 时 需要明确两点。 1:使用机器学习算法的目的,就是说我想要通过这个完成什么样的作用,2: 需要收集或者分析的数据有什么。
今晚先写到这里,这是第一篇博文