第一部分 分类
第一章 机器学习基础
1.1机器学习的定义
Machine learning is a subset of artificial intelligence in the field of computer science that often uses statistical techniques to give computers the ability to "learn" (i.e., progressively improve performance on a specific task) with data, without being explicitly programmed.(wiki)
1.2关键术语
如果我们要构建一个鸟类专家系统,鸟的体重、后背颜色等叫做特征,或属性,每一只鸟叫做一个实例。注意,通常特征为列。
机器学习的任务之一是分类,首先我们要进行算法训练,即学习如何分类。首先输入大量已分类数据作为算法的训练集,训练集中有若干训练样本,训练样本有一个目标变量和若干特征。目标变量是机器学习算法的预测结果,在分类算法中目标变量是离散型的,在回归算法中是连续型的。训练样本必须确切地知道目标变量的值,以便机器学习算法发现特征与变量样本之间的联系。通常,我们将分类问题中的目标变量称为类别。
为了测试机器学习算法的效果,使用两套独立的样本集:训练集和测试数据。
1.3机器学习的主要任务
监督学习:分类和回归
非监督学习:聚类:将数据集合分成由类似的对象组成的多个类;密度估计:寻找描述数据统计值的过程
监督学习的用途 | |
k-近邻算法 | 线性回归 |
朴素贝叶斯算法 | 局部加权线性回归 |
支持向量机 | Ridge回归 |
决策树 | LASSO最小回归系数估计 |
非监督学习的用途 | |
k-均值 | 最大期望算法 |
DBSCAN | PARZEN窗设计 |
1.4算法的选择
1.5开发机器学习应用程序的步骤
1.收集数据
2.准备输入的数据
3.分析输入数据
4.训练算法(非监督学习不需要此步)
5.测试算法
6.使用算法
1.7python的NumPy函数库基础
from numpy import *
random.rand(4,4)
randMat=mat(random.rand(4,4))
invRandMat=randMat.I
myEye=randMat*invRandMat
myEye-eye(4)
试用一下,能用即可。
1.8本章小结
1.大致了解机器学习的定义和常用术语
2.了解有哪些算法,如何选择
3.了解机器学习的一般步骤
4.学习python的基础使用方法