问11:假设你需要使用多元回归来生成一个预测模型。解释你打算如何验证此模型
有两种主要方法可以做到这一点:
A)调整后的R平方
R平方是一种度量,它告诉你因变量的方差比例在多大程度上由自变量的方差解释。用简单的话来说,当系数估计趋势时,R平方代表最佳拟合线周围的散布。
但是,每增加一个独立变量到一个模型中总是会增加R平方值,因此,具有多个自变量的模型似乎更适合,即使并非如此。这是调整后的R2出现的作用。调整后的R2补偿每个额外的自变量,并且该值仅当每个给定变量使模型的改善超出概率范围时才增加。这很重要,因为我们正在创建一个多元回归模型。
B)交叉验证
对大多数人来说,一种通用的方法是交叉验证,即将数据分为两组:训练和测试数据。有关更多信息,请参见第一个问题的答案。
问12:NLP代表什么?
NLP代表自然语言处理。它是人工智能的一个分支,赋予机器阅读和理解人类语言的能力。
问13:什么时候使用随机森林Vs支持向量机( SVM),为什么?
与支持向量机相比,随机森林是更好的模型选择有以下几个原因:
- 随机森林允许你可以确定特征的重要性。SVM无法做到这一点。
- 随机森林比支持向量机更快,更容易构建。
- 对于多类别分类问题,支持向量机需要“一对多”的方法,这种方法的可扩展性较低,并且占用的内存更多。
问14:为什么降维很重要?
降维是减少数据集中特征数量的过程。
这一点很重要,主要是在你要减少模型中的方差(过度拟合)的情况下。
降维的四个优点:
1.减少所需时间和存储空间
2.消除多重共线性改善了机器学习模型参数的解释
3.当数据缩小到非常低的维度(例如2D或3D)时,可视化数据更容易
4.避免了维度的诅咒
问15:什么是主成分分析(PCA)?解释使用PCA来解决的问题。
从最简单的意义上讲,PCA涉及将更高维度的数据(例如3维)投影到更小的空间(例如2维)。这样会导致数据维度较低(2维而不是3维),同时将所有原始变量保留在模型中。
PCA通常用于压缩目的,以减少所需的内存并加快算法的速度,还用于可视化目的,从而使汇总数据更加容易。
问16:为什么朴素贝叶斯这么糟糕?将如何改进使用朴素贝叶斯的垃圾邮件检测算法?
朴素贝叶斯的一个主要缺点是它有一个很强的假设,即特征被假设为彼此不相关,而通常情况并非如此。
改进使用朴素贝叶斯算法的一种方法是对特征进行去相关以使假设成立。