附答案 | 最强Python面试题之机器学习篇

本文详细探讨了机器学习的核心概念,包括过度拟合、欠拟合的定义和解决方案,有监督与无监督学习的区别,以及贝叶斯定理、KNN和k-means聚类算法的对比。此外,还讲解了如何处理数据集中的缺失值,选择重要变量的策略,以及在实际项目中如何避免过拟合。最后,文章涵盖了数据挖掘、数据预处理、模型训练和调优等多个重要环节。
摘要由CSDN通过智能技术生成

1、什么是机器学习

简单的说,机器学习就是让机器从数据中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好,这就是机器学习

对上面这句话的理解:

数据:从现实生活抽象出来的一些事物或者规律的特征进行数字化得到。

学习:在数据的基础上让机器重复执行一套特定的步骤(学习算法)进行事物特征的萃取,得到一个更加逼近于现实的描述(这个描述是一个模型它的本身可能就是一个函数)。我们把大概能够描述现实的这个函数称作我们学到的模型。

更好:我们通过对模型的使用就能更好的解释世界,解决与模型相关的问题。

2、机器学习数据挖掘的区别?

数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习数据挖掘》可以帮助大家理解。

数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。

由于统计学往往醉心于理论的优美而忽视实际的效用,因此,统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。从这个意义上说,统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习数据库则是数据挖掘的两大支撑技术。

数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。

而模式识别和机器学习的关系是什么呢,传统的模式识别的方法一般分为两种:统计方法和句法方法。句法分析一般是不可学习的,而统计分析则是发展了不少机器学习的方法。也就是说,

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值