（3.3）特征选择---嵌入法（特征重要性评估）

最新推荐文章于 2024-04-03 16:32:20 发布

dili8870

最新推荐文章于 2024-04-03 16:32:20 发布

阅读量2.8k

点赞数 2

文章标签：人工智能数据结构与算法嵌入式

原文链接：http://www.cnblogs.com/nxf-rabbit75/p/11125001.html

版权

一、正则化1.L1/Lasso　　L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验。举例：下面的例子在波士顿房价数据上运行了Lasso，其中参数alpha是通过grid search进行优化from sklearn.li...

摘要由CSDN通过智能技术生成

一、正则化

1.L1/Lasso

　　L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验。

举例：下面的例子在波士顿房价数据上运行了Lasso，其中参数alpha是通过grid search进行优化

from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import load_boston

boston = load_boston()
scaler = StandardScaler()
X = scaler.fit_transform(boston["data"])
Y = boston["target"]
names = boston["feature_names"]

lasso = Lasso(alpha=.3)
lasso.fit(X, Y)

print "Lasso model: ", pretty_print_linear(lasso.coef_, names, sort = True)

　　可以看到，很多特征的系数都是0。如果继续增加alpha的值，得到的模型就会越来越稀疏，即越来越多的特征系数会变成0。然而，L1正则化像非正则化线性模型一样也是不稳定的，如果特征集合中具有相关联的特征，当数据发生细微变化时也有可能导致很大的模型差异。

2.L2/Ridge

举例：

from sklearn.linear_model import Ridge
from sklearn.metrics import r2_score
size = 100

#We run the method 10 times with different random seeds
for i in range(10):
    print("Random seed %s" % i)
    np.random.seed(seed=i)
    X_seed = np.random.normal(0, 1, size)
    X1 = X_seed + np.random.normal(0, .1, size)
    X2 = X_seed + np.random.normal(0, .1, size)
    X3 = X_s

最低0.47元/天解锁文章

dili8870

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
（3.3）特征选择---嵌入法（特征重要性评估）

一、正则化1.L1/Lasso　　L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验。举例：下面的例子在波士顿房价数据上运行了Lasso，其中参数alpha是通过grid search进行优化from sklearn.li...
复制链接

扫一扫