本文中,介绍了各种机器学习问题,分享其中最常见的50个问题。
什么是机器学习?
机器学习是人工智能的一个子领域,涉及算法和统计模型的开发,使计算机能够通过经验来提高其在任务中的表现。计算机可以从任务中学习,并从经验中提高性能。
基础篇
1.机器学习与一般编程有何不同?
在一般的编程中,我们有数据和逻辑,通过使用这两个我们创建答案。但是在机器学习中,我们有数据和答案,我们让机器从中学习逻辑,这样,同样的逻辑可以用来回答未来将要面临的问题。此外,有些时候,用代码编写逻辑是不可能的,所以在那些时候,机器学习成为主导,学习逻辑本身。
2.聚类算法的一些实际应用是什么?
聚类技术可用于数据科学的多个领域,如图像分类、客户细分和推荐引擎。最常见的用途之一是市场研究和客户细分,然后用于针对特定的市场群体,以扩大业务和盈利成果。
3.如何选择最佳的集群数量?
通过使用肘部方法,我们决定了我们的聚类算法必须尝试形成的聚类的最佳数量。这种方法背后的主要原理是,如果我们增加聚类的数量,误差值就会减少。但是在最佳数量的特征之后,误差值的减少是微不足道的,因此,在开始发生这种情况的点之后,我们选择该点作为算法将尝试形成的聚类的最佳数量。
上图中的最佳聚类数是3。
4.什么是特征工程?它如何影响模型的性能?
特征工程是指利用已有的特征开发新的特征。有时候,某些特征之间存在非常微妙的数学关系,如果适当探索,则可以使用这些数学运算开发新的特征。此外,有时会将多条信息组合在一起,并作为单个数据列提供。在这些时候,开发新的功能并使用它们可以帮助我们更深入地了解数据,以及如果衍生的功能足够重要,则有助于大大提高模型的性能。
5.什么是机器学习中的假设?
假设是通常用于监督机器学习领域的术语。由于我们有独立的特征和目标变量,我们试图找到一个近似的函数映射从特征空间的目标变量,近似映射被称为一个假设。
6.如何衡量集群的有效性?
有一些指标,如惯性(inertia)或平方误差和(SSE),轮廓分数,L1和L2分数。在所有这些指标中,惯性或平方误差和(SSE)和轮廓分数是用于测量聚类有效性的常见指标。虽然这种方法在计算成本方面相当昂贵。如果形成的簇是致密的并且分离良好,则得分高。
7.为什么我