【笔记】【机器学习基础】单变量非线性变换

如果特征和目标之间存在非线性关系,建模变得很困难,特别
是回归问题
log和exp函数可以帮助调节数据的相对比例,改进线性模型或者神经网络的学习效果
在处理周期性模式的数据时,sin和cos函数非常有用
大部分模型在每个特征遵循高斯分布时表现很好

(1)模拟数据(钟形分布的数据)

rnd = np.random.RandomState(0)
X_org = rnd.normal(size=(1000, 3))
w = rnd.normal(size=3)

X = rnd.poisson(10 * np.exp(X_org))
y = np.dot(X_org, w)

难以找出特定的模式

(2)计算每个值出现的次数

print("Number of feature appearances:\n{}".format(np.bincount(X[:, 0])))

在这里插入图片描述
(3)计数可视化

bins = np.bincount(X[:, 0])
plt.bar(range(len(bins)), bins, color='grey')
plt.ylabel("Number of appearances")
plt.xlabel("Value")

在这里插入图片描述
特征X[:,1],X[:,2]具有类似的性质,为泊松分布

(4)拟合岭回归模型

from sklearn.linear_model import Ridge
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
score = Ridge().fit(X_train, y_train).score(X_test, y_test)
print("Test score: {:.3f}".format(score))

无法直接捕捉到X和y之间的关系,应用对数变换

(5)计算log(X+1)

X_train_log = np.log(X_train + 1)
X_test_log = np.log(X_test + 1)

变换后数据分布的不对称性变小,不再有非常大的异常值,如图:

plt.hist(X_train_log[:, 0], bins=25, color='gray')
plt.ylabel("Number of appearances")
plt.xlabel("Value")

在这里插入图片描述
(7)构建岭回归模型

score = Ridge().fit(X_train_log, y_train).score(X_test_log, y_test)
print("Test score: {:.3f}".format(score))

在新数据上构建得到了更好得拟合
有时一部分特征应该变换,有时每个特征的变化方式各不相同,只对部分数据进行变换,对基于树的模型而言,这种变换不重要,但对线性模型来说至关重要的。

对于复杂度较低的线性模型,分箱、多项式和交互式有很大的提升。

基于树的模型通常能够自己发现重要的交互项,大多数情况下不需要显式地变换数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值