监督学习
监督学习中,给定输入样本集,机器从中推演指定目标变量的可能结果。
目标变量类型:标称型(有限目标集中取值,常用于分类)、数值型(无限数值集中取值,常用于回归)
何谓机器学习
把无序数据转换成有用的信息::地震预测、推荐系统
关键术语
训练集:用于训练机器学习算法的数据样本集合,每个训练样本包括特征属性和目标变量
测试集:用于测试机器学习算法的数据样本集合,每个训练样本只包括特征属性,程序输出目标变量
分类:目标变量为标称型
回归:目标变量为连续型
机器学习的主要任务
监督学习:分类和回归。分析目标变量的分类信息或预测
无监督学习:聚类、密度估计、降维
如何选择合适的算法
明确算法目的、分析数据格式、反复迭代试错
开发机器学习应用程序的步骤
(1)收集数据
(2)准备输入数据(格式转换)
(3)分析输入数据(删除有缺失值的数据)
(4)训练算法
(5)测试算法(不满意回到第4步)
(6)使用算法
Python语言的优势
(1)语法清晰
(2)易于操作纯文本文件
(3)使用广泛
(4)但是性能不足,功能测试后可以使用C语言替换核心代码