🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎
📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃
🎁欢迎各位→点赞👍 + 收藏⭐️ + 留言📝
📣系列专栏 - 机器学习【ML】 自然语言处理【NLP】 深度学习【DL】
🖍foreword
✔说明⇢本人讲解主要包括Python、机器学习(ML)、深度学习(DL)、自然语言处理(NLP)等内容。
如果你对这个系列感兴趣的话,可以关注订阅哟👋
文章目录
根据目标值类型和必须解决的问题的性质,机器学习算法分为几类。这些算法通常可以表征为回归算法、聚类算法和分类算法。
聚类是无监督学习算法的一个例子,与回归和分类相反,它们都是监督学习算法的例子。数据可以通过分类过程进行标记,而相似数据的实例可以通过聚类过程组合在一起。如果输出中感兴趣的变量是一致的,那么我们就有了回归问题。本文提供了聚类和分类的基本概述,以及两者之间的比较。
什么是分类?
分类是定向机器学习方法的一个例子。分类技术有助于根据提供的任何输入对目标值的类别进行预测。有许多不同类型的分类,例如二元分类和多类分类等。它取决于目标值中包含多少类。
分类算法的类型
- 逻辑回归 : 它是一种可用于分类过程的线性模型。在确定某事发生的可能性时,会将 S 型函数应用于数据。在分类变量的分类中,没有比这更好的方法了。
- K-最近邻(KNN): 计算一个数据点之间的距离以及每个其他参数是通过使用距离度量来完成的,例如欧几里得距离、曼哈顿距离等。为了正确地对输出进行分类,需要每个数据项的 k 个最近邻居的简单多数投票。
- 决策树 : 与逻辑回归等线性方法不同,这是一个非线性模型。它使用树结构来构建分类模型,包括节点和叶子。此方法中使用了多个 if-else 语句将大结构分解为较小的结构,然后产生最终结果。在回归和分类问题中,它都可以得到很好的利用。
- 随机森林 : 在集成学习方法中使用多个决策树来预测目标属性的结果。决策树的每个分支都会产生不同的结果。需要多个决策树才能对此类分类问题的最终结论进行分类。回归问题通过对决策树的投影值进行平均来解决。
- 朴素贝叶斯 : 贝叶斯定理是这种特殊方法的基础。它的工作假设是一个特征的存在不依赖于其他特征的存在。换句话说,他们两个之间没有任何联系。作为这种假设的结果,它通常不能很好地处理复杂数据。这是因为大多数数据集在特征之间具有某种类型的联系。因此,假设导致了这个问题。
- 支持向量机(SVM): 使用数据点的多维表示。超平面用于将这些数据点分成几组。它显示了 n 个可用特征的 n 维域,并创建超平面以最大程度地分割数据片段。
应用
- 检测未经请求的电子邮件
- 人脸识别
- 确定客户是否可能离开
- 批准银行贷款
什么是聚类?
聚类是属于无监督机器学习类别的算法示例。其目的是从具有特定属性的数据点集合中创建集群。在理想情况下,属于某个集群的数据点必须具有相似的特征,而属于其他集群的数据点必须尽可能彼此不同。软聚类和硬聚类是构成聚类整体概念的两个类别。
聚类算法的类型
- K-means 聚类 : 它首先建立一组固定的 k 段,然后使用距离度量来计算将每个数据项与各个段的聚类中心分开的距离。然后它根据每个数据点与其他点的距离将其放入 k 组中的每一个。
-
凝聚层次聚类 : 集群是通过基于距离度量和用于连接这些集群的标准合并数据点而形成的。
-
分裂层次聚类 : 它首先将所有数据集合并到一个集群中,然后使用邻近度度量和标准来划分这些数据集。层次聚类和竞争聚类方法都可以看作是树状图,也可以用来确定最佳聚类数。
-
DBSCAN :这种聚类方法是基于密度的。某些算法(例如 K-Means)在它们之间具有合理空间的集群上表现良好,并生成具有球形的集群。当输入为任意形式时使用 DBSCAN,尽管它比其他扫描技术更不容易出现像差。它汇集了给定半径内与大量其他数据集相邻的数据集。
-
OPTICS :基于密度的聚类,如 DBSCAN,使用这种策略,但它考虑了更多的因素。然而,与 DBSCAN 相比,它具有更大的计算负担。还创建了可达性图,但它不会将数据集分成簇。这可能有助于理解聚类。
-
BIRCH : 为了将数据组织成组,它首先生成它的摘要。首先,它汇总数据,然后利用该汇总形成聚类。但是,它仅限于处理可以在空间上表达的数值属性。
应用
- 市场细分基于客户偏好
- 对现有社交网络的调查
- 图像分割
- 推荐引擎
回归和分类有什么区别?
因素 | 分类 | 回归 |
基本的 | 使用映射函数,值被映射到预设类。 | 当需要将值转换为连续输出时,映射函数就是您所需要的。 |
包括预期 | 不同的值 | 不变的值 |
预期数据的特征 | 无序 | 堆积 |
计算程序 | 通过衡量精度水平 | 计算均方根误差 (RMSE) |
典型算法 | 例如,逻辑回归和决策树。 | 可以使用回归树、线性回归和更多方法。 |
聚类有哪些不同的方法和应用?
可以说属于同一类别的一组项目构成了一个集群。更简单地说,我们可以将集群定义为彼此共享某些特征的项目的集合。在机器学习领域,被称为聚类的分析过程被认为是非常重要的。
不同的聚类方法
- 基于分区的聚类
- 基于层次模型的聚类
- 基于密度的聚类
- 在网格上聚类
- 基于模型的聚类
聚类的不同应用
- 提供建议的引擎
- 客户和市场细分
- 社会网络研究(SNA)
- 搜索结果的聚类
- 生物数据分析
- 医学中的 X 射线分析
- 检测癌细胞的存在
分类器有哪些不同的分类器和应用?
分类方法用于将标签分配给作为将可用数据分类为预定数量的类别的结果而生成的每个类别。存在两种分类器:
-
二元分类器
在这种情况下,仅使用两个可能的结果进行分类,这两个结果对应于两个单独的类别。例如,考虑垃圾邮件和非垃圾邮件的分类等。
-
多类分类器
在这种情况下,分类是使用不止两个独特的类别进行的。多种土壤的分类、音乐流派的细分等都是例子。
应用
- 内容分类
- 生物识别指纹
- 笔迹分析
- 语音确认
机器学习中最常见的分类算法是什么?
在自然语言处理方面,分类是一项完全依赖机器学习技术的工作。每个算法都有自己的目的,就是解决某个问题。因此,每个算法都根据要求部署在不同的位置。
数据集可能会受到任何数量的分类方法的影响。统计学中的分类学科非常广泛,任何单一技术的应用都完全取决于您正在处理的数据集。以下是机器学习中最常用的一些分类算法:
- 决策树
- K-最近邻
- 逻辑回归
- 支持向量机
- 朴素贝叶斯
许多原本需要几个小时才能完成的分析活动现在可以在分类算法的帮助下在几分钟内完成。