参考书:机器学习实践
定义:
机器学习的定义用一句简单的话概述就是把一堆无序的数据转化成有用的信息。
任务:
一、监督学习:
1.把实例数据划分到合适的分类中(即分类)
2.用于预测数值型数据(即回归)
二、无监督学习:
1.将数据集合分成由类似的对象组成的多个类的过程称为聚类
2.将寻找描述数据统计值的过程称为密度估计
监督学习和无监督学习的区别:
监督学习中样本的输入属性x和输出y都给出,目的是学习从输入到输出的映射关系
无监督学习中只给出了输入数据,我们的目的是发现输入数据中的规律
监督学习和无监督学习的用途:
算法选择:
1首先考虑机器学习算法的目的。
如果是想要预测目标变量的值,则选择监督学习算法,否则选择无监督学习算法。
如果选择了监督学习算法,则要进一步确定目标变量类型,如果目标变量是离散的,则选择分类器算法,若果是连续的,则选择回归算法。
开发机器学习应用程序的步骤:
1.收集数据:方法:从网站上抽取数据、实例数据、公开可用的数据等
2.数据输入:把收集到的数据转变为符合格式要求的数据
3分析输入的数据:查看是否有空值或异常值,常用的方法是画出可视化图形。
4.训练算法:机器学习算法的开始,是算法的核心。(但在无监督学习中不需要此步骤)
5.测试算法:目的是为了评估算法。在监督学习中,需用已知目标值的数据进行评估;对于无监督学习,需用其他的评测手段检验算法的成功率。
6.使用算法:将机器学习算法转化为应用程序执行任务