本博客所有内容均整理自《Python数据科学手册》,欢迎讨论交流~
当下“机器学习”这个术语非常流行,而且当机器真的学习起来之后,能力也确实非常强悍,击败人类围棋世界冠军只能算是机器学习起来之后的一个“小目标”。众所周知,机器学习是人工智能领域不可忽视的力量,然而,虽然对机器学习的研究基本源自人工智能领域,但是机器学习的方法却可以应用于千千万万的广大范畴,无论是无人驾驶还是互联网金融,都有机器学习算法的影子。随着近几年数据科学的飞速发展,大数据的崛起促使机器学习算法更加高效和智能。
本博客聚焦于将机器学习的方法应用于数据科学领域,将从数据科学的角度来讲解“机器学习”这个术语的最最简单的基础知识。
1. 机器学习的概念
从数据科学的角度来说,机器学习是用数据科学的计算能力和算法能力去弥补统计方法的不足,其最终结果是为那些目前既没有高效的理论支持、又没有高效的计算方法的统计推理与数据探索问题提供解决方法。
2. 机器学习的分类
机器学习一般可分为两类:监督学习(supervised learning)和无监督学习(unsupervised learning)。
监督学习是指对数据的若干特征与若干标签之间的关联性进行建模的过程,可进一步分为分类(classification)任务和回归(regression)任务。在分类任务中,标签都是离散值;而在回归任务中,标签都是连续值。
无监督学习是指对不带任务标签的数据特征进行建模,可以认为是“让数据自己介绍自己”,可进一步分为聚类(clustering)任务和降维(dimensionality reduction)任务。聚类算法可以将数据分成不同的组别,而降维算法追求用更简洁的方式表现数据。
另外,还有一种特殊情形,称为半监督学习(semi-supervised learning),介于监督学习和无监督学习之间,通常可以在数据标签不完整时使用。
3. 应用实例:
分类任务:对邮件的关键词与短语出现的频次的归一化向量作为特征,分类成“垃圾邮件”和“普通邮件”这两种标签。
重要分类算法:高斯朴素贝叶斯分类、支持向量机、随机森林分类
回归任务:对具有若干波长或颜色的星系的亮度等作为特征,回归出星系的距离或红移等标签。
重要回归算法:线性回归、非线性回归、支持向量机、随机森林回归
聚类任务:聚类模型会根据输入数据的固有结构判断数据点之间的相关性。
重要聚类算法:K-means聚类、高斯混合模型、谱聚类
降维任务:降维其实就是在保证高维数据质量的条件下从中抽取出一个低维数据集。
重要降维算法:主成分分析、Isomap算法、局部线性嵌入算法
4. 总结
监督学习:可以训练带标签的数据以预测新数据标签的模型
- 分类:可以预测两个或多个离散分类标签的模型
- 回归:可以预测连续标签的模型
无监督学习:识别无标签数据结构的模型
- 聚类:检测、识别数据显著组别的模型
- 降维:从高维数据中检测、识别低维数据结构的模型