关键术语
训练集:用于训练机器学习算法的数据样本集合
目标变量:机器学习算法的预测结果,其中分类算法--标称型,回归算法-连续型
知识表示:展示机器学习算法获取的信息,可以使规则集、概率分布、甚至训练样本集中的一个实例
主要任务
分类(classification):将实例数据划分到合适的分类中
回归(regression):预测数值型数据。例子:数据拟合曲线
分类和回归属于监督学习(supervised learning),监督学习需要知道目标变量的分类信息。
与监督学习对应的是无监督学习(unsupervised learning),数据没有类别信息,也没有目标值
聚类(clustering):将数据集合分成有类似的对象组成的多个类
密度估计(density estimation):寻找描述数据的统计值
无监督学习可以减少数据特征的维度。
算法选择
预测目标变量的值---监督学习
目标变量类型:离散型---分类;连续型---回归
不预测目标变量的值---无监督学习
将数据划分为离散的组---聚类
估计数据与每个组的相似程度---密度估计
开发应用程序步骤
- 收集数据
- 准备输入数据
- 分析输入数据
- 训练算法(监督学习)
- 测试算法
- 使用算法
Python语言的优势
语法结构清晰,流行,比matlab便宜,就是比C和JAVA慢了一点点