对于从来没有接触过机器学习的人来说,周志华的《机器学习》——也就是所谓的西瓜书,可以说是最适合的教材了。西瓜书省略了数学公式的推导,更注重于机器学习的概念,每个算法都用西瓜作为例子进行讲解非常容易理解。
准备工作
一本西瓜书:《机器学习》——周志华著
编程环境:可以是python,也可以是C语言,也可以是matlab,其他语言也可以。
你不想学习为什么要机器学习?
现在人们有这样一个任务的需求:将一个物体的特征(feature),放入某个模型(model)中,预测(predict)出这个物体是什么。
其中,这个模型,的获得,就是通过一组数据的集合(dataset)放入一个原始的模型中,让计算机重新配置权重(weight),而得到一个带权重的模型,这个过程叫做训练(train),也是机器学习的核心。
现在有两个问题:
- 这个模型最初是什么样的?
- 这个模型经过训(xue)练(xi)后的效果如何?
机器学习的模型叫做机器学习算法,所谓人工神经网络只是其中的一种算法而已。
机器学习训练后的结果有许多评判标准。可以在西瓜书的前三章中找到详细的数学解释。
机器学习分类
机器学习按照预测的要求来分可以分为:
1. 分类:预测值为离散值
2. 回归:预测值为连续值
按照数据集可以分为:
1. 有监督学习:数据集有标签
2. 无监督学习:数据集无标签
机器学习算法汇总
- 有监督学习
- 线性模型:解决回归问题
- K-NN:解决回归或者聚类问题
- 决策树:解决分类问题
- 神经网络:一般解决分类问题
- 支持向量机:解决分类或回归问题
- 贝叶斯分类器:解决分类问题
- 无监督学习
- k-means
- 密度聚类
- 高斯混合聚类
这里只列举了一部分算法,还有很多算法没有列举。
小结
机器学习的训练就是通过输入数据集到模型,进行权重配置得到一个新的模型:
有了训练好的模型之后就可以进行预测: