机器学习完整路径

最新推荐文章于 2024-09-08 13:20:11 发布

hanlifeng2000

最新推荐文章于 2024-09-08 13:20:11 发布

阅读量1.5k

点赞数 12

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/hanlifeng2000/article/details/140385012

版权

如上图所示数据挖掘只是机器学习中涉猎的领域之一，机器学习还有模式识别、计算机视觉、语音识别、统计学习以及自然语言处理等。

机器学习即 ML，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

机器学习作为人工智能研究较为年轻的分支，机器学习也分监督学习和非监督学习，同时随着人工智能越来越被人们重视和越热，深度学习也是机器学习的一个新的领域。

一、机器学习的基本流程

A computer program is said to learn fromexperience E with respect to some task T and some performance measure P,if itsperformance on T,as measured by P,improves with experience E. —Tom Mitchell

简单来说，机器学习就是针对现实问题，使用我们输入的数据对算法进行训练，算法在训练之后就会生成一个模型，这个模型就是对当前问题通过数据捕捉规律的描述。然后我们将模型进一步导入数据，或者引入新的数据集进行评估，根据结果的好坏反过来调整算法，形成反馈和优化闭环。整个过程机器在不断的学习、训练和优化迭代，这个也是机器学习强大的地方。

二、机器学习的十大算法

为了进行机器学习和数据挖掘任务，数据科学家们提出了各种模型，在众多的数据挖掘模型中，国际权威的学术组织 ICDM（the IEEE International Conference on Data Mining）评选出了十大经典的算法。

按照不同的目的，我可以将这些算法分成四类，以便你更好的理解。

分类算法：C4.5，朴素贝叶斯（Naive Bayes），SVM，KNN，Adaboost，CART

聚类算法：K-Means，EM

关联分析：Apriori

连接分析：PageRank

1. C4.5

C4.5 算法是得票最高的算法，可以说是十大算法之首。C4.5 是决策树的算法，它创造性地在决策树构造过程中就进行了剪枝，并且可以处理连续的属性，也能对不完整的数据进行处理。它可以说是决策树分类中，具有里程碑式意义的算法。

2. 朴素贝叶斯（NaiveBayes）

朴素贝叶斯模型是基于概率论的原理，它的思想是这样的：对于给出的未知物体想要进行分类，就需要求解在这个未知物体出现的条件下各个类别出现的概率，哪个最大，就认为这个未知物体属于哪个分类。

3. SVM

SVM 的中文叫支持向量机，英文是 SupportVector Machine，简称 SVM。SVM 在训练中建立了一个超平面的分类模型。

4. KNN

KNN 也叫 K 最近邻算法，英文是 K-Nearest Neighbor。所谓 K 近邻，就是每个样本都可以用它最接近的 K 个邻居来代表。如果一个样本，它的 K 个最接近的邻居都属于分类 A，那么这个样本也属于分类 A。

5. AdaBoost

Adaboost 在训练中建立了一个联合的分类模型。boost 在英文中代表提升的意思，所以 Adaboost 是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器，所以 Adaboost 也是一个常用的分类算法。

6. CART

CART 代表分类和回归树，英文是 Classificationand Regression Trees。像英文一样，它构建了两棵树：一颗是分类树，另一个是回归树。和C4.5 一样，它是一个决策树学习方法。

7. Apriori

Apriori 是一种挖掘关联规则（association rules）的算法，它通过挖掘频繁项集（frequentitem sets）来揭示物品之间的关联关系，被广泛应用到商业挖掘和网络安全等领域中。频繁项集是指经常出现在一起的物品的集合，关联规则暗示着两种物品之间可能存在很强的关系。

8. K-Means

K-Means 算法是一个聚类算法。你可以这么理解，最终我想把物体划分成 K 类。假设每个类别里面，都有个“中心点”，即意见领袖，它是这个类别的核心。现在我有一个新点要归类，这时候就只要计算这个新点与K 个中心点的距离，距离哪个中心点近，就变成了哪个类别。

9. EM

EM 算法也叫最大期望算法，是求参数的最大似然估计的一种方法。原理是这样的：假设我们想要评估参数 A 和参数 B，在开始状态下二者都是未知的，并且知道了 A 的信息就可以得到 B 的信息，反过来知道了 B 也就得到了 A。可以考虑首先赋予A 某个初值，以此得到 B 的估值，然后从 B 的估值出发，重新估计 A 的取值，这个过程一直持续到收敛为止。

EM 算法经常用于聚类和机器学习领域中。

10. PageRank

PageRank 起源于论文影响力的计算方式，如果一篇文论被引入的次数越多，就代表这篇论文的影响力越强。同样 PageRank 被 Google 创造性地应用到了网页权重的计算中：当一个页面链出的页面越多，说明这个页面的“参考文献”越多，当这个页面被链入的频率越高，说明这个页面被引用的次数越高。基于这个原理，我们可以得到网站的权重划分。

推荐阅读

网络资源推荐

吴恩达机器学习：此教程以理论为主，对小白极为友善，就算没有基础，也能以最快的速度入门机器学习。

网址：1-1.欢迎参加《机器学习》课程哔哩哔哩bilibili

菜菜的sklearn：此教程以实践为主，从数据处理、特征工程、到模型算法都会给予代码进行实操讲解，并将每个参数都讲的非常细致。

网址：1 1.1 决策树是如何工作的哔哩哔哩bilibili

书籍推荐

基础部分

1、《机器学习图解》

Manning家的图解系列，可以说是入门书的首选。特别对于数学基础相对薄弱的读者来说，更是非常友好。本书使用Python构建有趣的项目，不谈深奥的术语，只通过基本代数知识(高中数学)提供清晰的解释，就能理解和应用强大的机器学习技术。

2、《细说机器学习从理论到实践》

这是一本超级详细的机器学习入门书，还是一本边学边练的动手书。每个知识点配合大量练习，全书设计200多个编程实例，展示机器学习算法与框架的实际应用。从统计学、线性代数与概率论等机器学习的基础知识谈起，逐步介绍机器学习的基本概念，常用算法与编程实现，以及高级知识、框架实践与项目案例，兼顾理论与应用，详尽易懂。书中涵盖了机器学习中常用的模块和流行框架包括NumPy、Pandas、Matplotlib.Scikit-Learn、TensorFlow和PyTorch等，特别注重介绍基于深度学习的TensorFlow和PyTorch框架的概念、原理以及实际应用；还详细介绍了机器学习中的特征工程、模型评估、降维方法等必备基础知识，并针对K-Means聚类算法、K最近邻算法、回归算法、朴素贝叶斯算法、决策树与随机森林算法、支持向量机、神经网络、集成学习、卷积网络以及激活函数等进行了深入阐述，涵盖了当前机器学习的热点内容。

3、《Python机器学习实战》

本书作者在前言中写到：“通过这本书，我们做了一次非常谦卑的尝试，为绝对零基础的初学者写一本以机器学习为主题的分步骤指南。本书的每一章都包含对概念的解释、代码示例、对代码示例的解释以及代码输出截图。”

本书分为三个部分。第一部分介绍使用 Python 的数字运算和数据分析工具，并深入解释环境配置、数据加载、数值处理、数据分析和可视化。第二部分涵盖机器学习基础知识和 Scikit-learn 库。它还通过理论和实践课程以简单的方式解释了监督学习、无监督学习、回归算法的实现和分类以及集成学习方法。第三部分解释了复杂的神经网络架构，并详细介绍了卷积神经网络的内部工作和实现。最后一章包含 Pytorch 中神经网络的详细端到端解决方案。本书可以帮助读者实现机器学习和神经网络解决方案。

4、《艾博士：深入浅出人工智能》

由清华大学计算机系长聘教授，中国人工智能学会副监事长马少平教授编著，以博学的艾博士和好学的小明师徒二人对话的方式，一步步由浅入深地讲解人工智能的基本原理和方法，就像线下课堂一样亲切真实。

这本书不局限于机器学习，是针对初学者介绍人工智能基础知识的书籍。本书采用通俗易懂的语言讲了解人工智能的基本概念、发展历程和主要方法。内容涵盖人工智能的核心方法，包括什么是人工智能、神经网络 ( 深度学习 ) 是如何实现的、计算机是如何学会下棋的、计算机是如何找到最优路径的、如何用随机算法求解组合优化问题、统计机器学习方法是如何实现分类与聚类的、专家系统是如何实现的等每种方法都配有例题并给出详细的求解过程，以帮助读者理解和掌握算法实质，提高读者解决实际问题的能力。

进阶

1、《机器学习中的统计思维》（Python实现）

作为一名统计学博士，作者曾以李航博士的《统计学习方法》为蓝本，在视频平台上分享统计学知识收获众多拥趸。如今董平博士将自己的所学所得凝练成册，以统计思维的视角，揭示监督学习中回归和分类模型的核心思想，帮助读者构建理论体系。具体模型包括线性回归模型、K近邻模型、贝叶斯推断、逻辑回归模型、决策树模型、感知机模型、支持向量机、EM算法和提升方法。

为满足不同年龄和不同专业读者的需求，作者为大家贴心地准备了主体书与小册子。主体书以机器学习模型为主，每一章都清晰透彻地解析了模型原理，书中的每一页都设计了留白，方便读者批注；小册子用于查阅碎片化的知识点，便于读者随时复习需要的数学概念。书中不仅有机器学习的理论知识，还有故事和案例，希望各位读者在阅读本书的过程中能够感受到机器学习中统计思维的魅力，获得科学思维方法的启迪并具有独立的创新思辨能力。

2、《机器学习系统设计和实现》

填补空白之作：衔接机器学习与计算机系统

本书由麦络，爱丁堡大学信息学院助理教授，博士生导师和董豪，北京大学计算机学院助理教授，博士生导师合著，图书在github上开源，同时收到了来自学界和产业界的各位优秀教授、研究者、和从业者的诸多写作建议。全书分成基础篇、进阶篇和拓展篇3个部分。

基础篇覆盖机器学习框架使用者所需要了解的核心系统知识和相关编程案例；进阶篇覆盖了机器学习框架开发着所需要理解的核心知识和相关实践案例；拓展篇详细讨论了多种类的机器学习系统，从而为广大机器学习从业者提供解密底层系统所需的基础知识。

图书开源地址：

https://github.com/openmlsys/

提升篇：

1、《机器学习方法》

李航博士《统计学习方法》的升级版，2012年《统计学习方法 (第 1版)》出版，内容涵盖监督学习的主要方法， 2019年第 2版出版，增加了无监督学习的主要方法，都属于传统机器学习。《机器学习方法》在《统计学习方法》的基础上增加了深度学习的内容，全面系统地介绍了机器学习的主要方法，系统阐述其理论、模型、策略和算法，从具体例子入手，由浅入深，帮助读者直观地理解基本思路，同时从理论角度出发，给出严格的数学推导，严谨详实，让读者更好地掌握基本原理和概念。

《机器学习方法》全面系统地介绍了机器学习的主要方法，共分三篇。第一篇介绍监督学习的主要方法，包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与z大熵模型、支持向量机、Boosting、EM算法、隐马尔可夫模型、条件随机场等；第二篇介绍无监督学习的主要方法，包括聚类、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡罗法、潜在狄利克雷分配、PageRank算法等。第三篇介绍深度学习的主要方法，包括前馈神经网络、卷积神经网络、循环神经网络、序列到序列模型、预训练语言模型、生成对抗网络等。

本书的机器学习算法清晰简练，公式推导详细又简洁，全书用逻辑和公式说话，没有啰嗦冗余，妥妥是一本“干货书”，让人又爱又恨呀~

2、《统计学习要素》

三位统计学家高屋建瓴之作，复旦张军平教授亲译。这是一本面向非统计专业的读者介绍重要的统计学概念的书，非纯数学理论，借助于一个通用概念框架，描述多个学科的重要思想，比如医学、生物学、金融学和营销。

全书共18 章，主题包括监督学习、回归的线性方法、分类的线性方法、基展开和正则化、核光滑方法、模型评估和选择、模型推断和平均、加性模型、树和相关方法、Boosting 和加性树、神经网络、支持向量机和柔性判断、原型方法和最近邻、非监督学习、随机森林、集成学习、无向图模型和高维问题等。本书将机器学习技术在统计和数值优化的意义上重新阐释，让读者理解本质和内在联系，掌握这类问题的基本思路，为希望在科研道路上发展的读者打下了坚实的基础。