八、多重共线性
1、多重共线性影响:
1.1、多重共线性与哑编码的适用场景类似,即影响基于 wx + b 的模型(线性回归、逻辑回归、SVM)。
PCA:
降维 --> 内部相当于将多个特征属性做一个线性转换/映射 --> 转换之后得到的每个特征属性之间是独立的 --> PCA是
可以解决多重共线性问题的
--------------------------------------------------------------------------------------------
多重共线性问题:
问题描述:特征属性之间是存在非常大的相关性的,从而导致训练出来的模型不太稳定(线性回归、Logisitc回归、SVM
这些算法一般会受多重共线性问题的影响)
简单理解:假设现在有10个特征属性,但是其中存在某些特征属性的功能、效果是一致的,这个时候就可以认为这
些特征属性之间存在多重共线性。
解决方案:
-1. 降维(相当于将效果相同的特征属性合并,产生新的特征属性)
-2. 正则化(相当于对于效果相同的特征属性,将部分特征属性的权重系数降低, 通过这种方式来缓解多
重共线性的问题,Ridge、Lasso都可以解决共线性,尤其是Lasso回归)
-3. 逐步回归迭代法:假设有10个特征属性,首先使用任意一个特征属性构建一个模型,得到当前模型的效
果,然后任意加入一个新的特征属性,如果新加入的特征属性不能让模型效果变的更好,那么表示新加
入的特征属性是无效特征属性,不需要考虑,如果新加入的特征属性让模型效果变好,那么表示新特征
对于模板属性具有影响能力,所以考虑新加入的特征属性x2, 和老的特征属性x1,它们对应的权重系数
θ2和θ1的变化情况,如果θ1变化很小,那么表示x1和x2之间是无关,如果θ1变化很大,那么表示x1和
x2之间是有关的;最后迭代完后,将所有线性有关的特征属性以及对于目标属性没有决策能力的特征进
行删除。(相当于将多重共线性的特征属性进行删除操作)
九、模型部署问题
============================================
模型持久化
-1. 直接将模型持久化为磁盘文件,然后在需要的地方加载这个磁盘文件恢复成模型然后对数据做预测。---> 模型用的是py
thon语言,持久化成的文件也只能是Python语言加载 --> 如何使用Python语言加载模型对数据做预测? --> Pyth
on Web的开发
-2. 直接将模型参数持久化数据库,然后在需要的地方直接从数据库加载模型参数进行模型的恢复预测 --> 两个地方的语言
可以不一样 -> Python数据库开发
-3. 直接使用模型对数据做一个预测,将预测结果持久化数据库,然后在需要的地方直接从数据库获取预测结果 --> 两个
地方的语言可以不一样 -> Python数据库开发