目录
- 什么是十大受欢迎的机器学习算法?
- 这些重要算法如何提高机器学习技能
- 流行的机器学习算法列表
- 结论
在这里几乎所有手动任务都可以实现自动化,手动的定义正在发生变化。机器学习算法可以使计算机实现下棋、做手术并,变得更智能化、更个性化。
我们生活在一个技术不断进步的时代,通过这些年来计算的发展,我们可以预测未来几天可能发生什么。
这场变革的主要特征之一是计算工具和技术的普及。在过去的五年中,数据科学家通过无缝执行先进技术构建了复杂的数据处理机器,结果令人震撼。
10大受欢迎的机器学习算法
十大常用机器学习 (ML) 算法如下:
- 线性回归
- 逻辑回归
- 决策树
- 支持向量机算法
- 朴素贝叶斯算法
- KNN算法
- K均值
- 随机森林算法
- 降维算法
- 梯度提升算法和 AdaBoosting 算法
以下算法是如何提你高机器学习能力的
如果您是数据科学家或机器学习爱好者,您可以使用这些技术来创建功能性机器学习项目。
1. 线性回归
为了解此算法的功能,请想象一下您是如何按重量递增的顺序排列随机的木材原木。难点是您不能一一去称重每根原木。您需要通过查看原木的高度和周长(视觉分析)来猜测它的重量,并使用这些可见参数组合来排列它们。这就是机器学习中的线性回归。
在这个过程中,通过将自变量和因变量拟合成一条线,在它们之间建立关系。这条线称为回归线,由线性方程 Y= a *X + b 表示。
在这个等式中:
- Y - 因变量
- a – 斜率
- X – 自变量
- b – 拦截
系数 a 和 b 是通过最小化数据点与回归线之间距离的平方差之和得出的。
2.逻辑回归
Logistic 回归用于从一组自变量中估计离散值(通常是二进制值,如 0/1)。它通过将数据拟合到 logit 函数来预测事件的概率。它也称为逻辑回归。
下面列出的这些方法通常用于改进逻辑回归模型:
- 包括交互项
- 消除特征
- 规范化技术
- 使用非线性模型
3. 决策树
机器学习中的决策树算法是当今最流行的算法之一;这种算法是用于对问题进行分类的监督学习算法。它适用于分类和连续因变量的分类。在该算法中,我们根据最重要的属性/自变量将总体分为两个或多个同质集。
4. SVM(支持向量机)算法
SVM 算法是一种分类算法方法,其中将原始数据绘制为 n 维空间中的点(其中 n 是您拥有的特征数)。然后将每个特征的值与特定坐标相关联,从而轻松对数据进行分类。被称为分类器的线可用于拆分数据并将它们绘制在图形上。
5.朴素贝叶斯算法
A朴素贝叶斯分类器假设一个类中的特定特征的存与的其它任何特征的存在无关。
即便这些特征彼此相关,朴素贝叶斯分类器在计算特定结果的概率时也会独立考虑所有这些属性。
朴素贝叶斯模型容易构建且适用于大量的数据集。它很简单,且以优于高度复杂的分类方法而著称。
6. KNN(K-最近邻)算法
该算法可以应用于分类和回归问题。显然,在数据科学行业中,它更广泛地用于解决分类问题。这是一个简单的算法,它将所有可用案例存储并采取其K个邻居的多数票对所有新案例进行分类。然后将案例分配给与它最相似的类。一个距离函数执行此测量。
通过将KNN与现实生活进行比较,可以很容易地理解KNN。例如,如果您想了解某个人的信息,最好与他或她的朋友和同事交谈!
在选择 K 最近邻算法之前需要考虑的事项:
- KNN 的计算成本很高
- 变量应该归一化,否则更高范围的变量会使算法产生偏差
- 数据仍然需要预处理。
7. K-均值
K-均值是一种解决聚类问题的无监督学习算法。数据集被分类到特定数量的集群中(我们称之为数字 K),这样一个集群中的所有数据点与其他集群中的数据是同质异类的。
K-means 如何形成集群:
- K-means算法拾取每个集群K数的点,称为质心。
- 每个数据点与最近的质心形成一个集群,即 K 个集群。
- 它基于现有的集群成员创建新的质心。
- 有了这些新的质心,就可以确定每个数据点的最近距离。重复这个过程,直到质心不变。
8. 随机森林算法
决策树的集合称为随机森林。为了根据其属性对新对象进行分类,为每棵树进行分类,然后树为该分类“投票”。森林选择得票最多的分类(在森林中的所有树中)。
每棵树的种植和生长如下:
- 如果训练集中的案例数为 N,则随机抽取 N 个案例的样本。该样本将是用于生长树的训练集。
- 如果有M个输入变量,则指定一个数m<<M,使得在每个节点上,从M个变量中随机选择m个变量,并使用这个m上的最佳分裂来分裂节点。在此过程中,m 的值保持不变。
- 每棵树都在尽可能大的范围内生长,没有修剪。
9. 降维算法
在当今世界,企业、政府机构和研究机构正在存储和分析大量数据。作为数据科学家,您知道这些原始数据包含大量信息——挑战在于识别重要的模型和变量。
决策树、因子分析、缺失值比和随机森林等降维算法可以帮助您发现相关细节。
10.梯度提升算法和AdaBoosting算法
这些是在必须处理大量数据以进行高精度预测时使用的增强算法。Boosting 是一种集成学习算法,它结合了几个基础估计器的预测能力来提高稳定性。
简而言之,它结合了多个弱预测器或平均预测器来构成强预测器。这些提升算法在 Kaggle、AV Hackathon、CrowdAnalytix 等数据科学竞赛中总是运行良好。这些是当今最受欢迎的机器学习算法。将它们与 Python 和 R 代码一起使用,以获得准确的结果。
结论
如果您想在机器学习领域建立自己的职业生涯,请立即起步。该领域正在增长,您越早了解机器学习范围的工具,就能够越早为复杂的工作问题提供解决方案。然而,您在该领域经验丰富并希望提升您的职业生涯,您可以开始攻读普渡大学与 IBM 合作的人工智能和机器学习研究生课程。该计划会让您深入了解 Python、使用Tensor Workflow的深度学习算法、自然语言处理、语音识别、计算机视觉和强化学习。
此外,还可以准备好机器学习面试问题,以找到理想的工作!
更多机器学习信息,可参考以下目录。