特征工程

weixin_43432093

于 2020-03-28 20:21:46 发布

阅读量89

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43432093/article/details/105167665

版权

1.需要标准化：k-均值聚类，最邻近法则，径向基核函数，欧式距离
2.不需要标准化：基于空间分类的，决策树、梯度提升、随机森林；
3.线性回归需要数据服从高斯分布：对数运算。
4.数值计数：二值化，数据区间量化：固定宽度分箱
这时分箱宽度是呈指数增长的，从 O(10) 到 O(100)、 O(1000) 以及更大。要将计数值映射到分箱，需要取计数值的对数。指数宽度分箱与对数变换的关系非常紧密
np.floor_divide(small_counts, 10)：数据除以10，向下元整。
small_counts = np.random.randint(0, 100, 20)
small_counts
array([30, 64, 49, 26, 69, 23, 56, 7, 69, 67, 87, 14, 67, 33, 88, 77, 75,
47, 44, 93])

通过除法映射到间隔均匀的分箱中，每个分箱的取值范围都是0~9

np.floor_divide(small_counts, 10)
array([3, 6, 4, 2, 6, 2, 5, 0, 6, 6, 8, 1, 6, 3, 8, 7, 7, 4, 4, 9], dtype=int32)

横跨若干数量级的计数值数组

large_counts = [296, 8286, 64011, 80, 3, 725, 867, 2215, 7689, 11495, 91897,
… 44, 28, 7971, 926, 122, 22222]

通过对数函数映射到指数宽度分箱

np.floor(np.log10(large_counts))
array([ 2., 3., 4., 1., 0., 2., 2., 3., 3., 4., 4., 1., 1., 3., 2., 2., 4.])

weixin_43432093

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。