机器学习
第一部分 分类
监督学习: 在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。
监督学习一般使用两种类型的目标变量:标称型(如真与假,)和数值型。
第一章 机器学习基础部分
1.关键术语:
使用某个机器学习算法进行分类时,首先要做的是**算法训练**,即学习如何分类。
我们为算法输入大量已分类的数据作为算法的**训练集**。训练集是用于训练机器学习算法的数据样本集合。
每个训练样本中有**n个特征、一个目标变量**。
目标变量是机器学习算法的预测结果,**分类算法中目标变量通常是标称型**的,**回归算法中通常是连续型(或数值型)**的。
特征通常是训练样本集的列,他们是独立测量得到的结果,多个特征联系在一起共同组成一个训练样本。
为了测试机器学习算法的效果,通常使用两套独立的样本集:**训练数据和测试数据**。
2. 机器学习的主要任务
1. 分类问题和回归问题
分类:将实例数据划分到合适的分类中。
回归:预测数值型的数据,如 数据拟合曲线-通过给定的数据点的最优拟合曲线。
分类和回归属于***监督学习***。
2. 无监督学习,数据中没有类别信息,也没有目标值,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;
将寻找描述数据统计值的过程称之为密度估计;
无监督学习可以减少数据的维度。
3.如何选择合适的算法
想要在算法中选择出实际可用的算法,必须考虑两个问题:
1. 使用机器学习算法的目的,想要完成何种任务?
2. 需要分析或收集的数据是什么?
4. 开发机器学习应用程序的步骤
1. 收集数据。
2. 准备输入数据。
3. 分析输入数据。
4. 训练算法。
5. ....
6. ....
有事情暂时停止