监督学习(给定样本数据集,机器从中推演出目标变量的可能结果)
监督学习使用的两种类型的目标变量:
(1)标称型目标变量(适用于有限目标集)
(2)数值型目标变量(主要用于回归分析,可从无限数值集合中取值)
机器学习(把无序的数据转化为有用的信息)
机器学习的主要任务——分类、回归
如何运用某个机器学习算法进行分类:
1.算法训练(学习分类)
——输入训练集,让算法学习
注:训练集中的训练样本包含“特征”与“目标变量”;机器将“特征”作为学习“原材料”;同时,训练集里的数据是已经分类好的,即“目标变量”确定;机器通过反复学习提高精确度
2.测试机器学习算法的效果
——输入训练样本,开始训练;训练完成后输入测试样本(不包含目标变量),比较程序预测的目标变量与实际类别(这里特指分类问题)比较,得出实际精确度
3.知识表示
——当学习算法的精度达到要求时,根据具体要求,对学习效果进行不同的表示
回归(主要用于预测数值型数据)
算法
监督学习
k-近邻算法——线性回归
朴素贝叶斯算法——局部加权线性回归
支持向量机——Ridge回归
决策树——Lasso最小回归系数估计
无监督学习
K-均值——最大期望算法
DBSCAN——Parzen窗设计
如何选择算法
1.考虑机器学习的目的
2.考虑需要分析达的数据是什么
开发机器学习应用程序的步骤
1.收集数据
2. 准备输入数据及输入数据
3. 分析数据
4. 测试算法
5. 使用算法