写在前面:开始学习《机器学习实战》这本书啦,记录下自己觉得重要的点。
目录:
1.1 什么是机器学习
机器学习就是把无序的数据转换成有用的信息。
1.2 关键术语
(PDF版本的电子书竟然缺了几页?)特征,属性,训练集,测试集,目标变量,知识表示
1.3 机器学习的主要任务
1.4 如何选择合适的算法
首先考虑目的,如果要预测目标变量的值,则可以选择监督学习算法;否则选择无监督学习算法。
确定选择监督学习算法以后,然后确定目标变量类型,如果是离散型,则可以选择分类器算法;如果是连续型,则选择回归算法。
确定选择无监督学习算法后,如果需要将数据划分成离散的组,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。
1.5 开发机器学习应用程序的步骤
- 收集数据
- 准备输入数据
- 分析输入数据,确保没有垃圾数据
- 训练算法(如果是无监督学习算法,由于不存在目标变量值,故而也不需要训练算法)
- 测试算法,如果不满意,回到第四步,改正并加以测试
- 使用算法
1.6 Python 语言的优势
语法清晰;易于操作纯文本文件;使用广泛,存在大量的开发文档。