一文讲解特征工程 | 经典外文PPT及中文解析

最新推荐文章于 2024-04-25 21:04:10 发布

Datawhale

最新推荐文章于 2024-04-25 21:04:10 发布

阅读量586

点赞数

本文链接：https://blog.csdn.net/Datawhale/article/details/102512765

版权

点击上方“Datawhale”，选择“星标”公众号

第一时间获取价值内容

640?

“More data beats clever algorithms, but better data beats more data.”——名人名言哈哈哈哈，更多的数据打败聪明的算法，更好的数据打败更多的数据。

特征工程

类别特征

Onehot编码

一个简单的例子

哈希编码

对固定长度的数组执行“ OneHot编码”。（不同的hash编码通过不同的算法将类别映射为一个唯一的值，例如对于类别A通过hash编码可能映射为qwe456这种6维序列，然后我们再去做onehot展开）
避免极为稀疏的数据
可能会引起碰撞（例如10000个类别用2位的hash编码，很容易出现不同类别最终映射的hash值是相同的，此现象称为碰撞—collisions）
可以重复使用不同的哈希函数和袋结果，以降低准确性（意思应该是用不同的hash算法得到不同的编码值然后concat到一起尽量避免碰撞的发生）
碰撞collisions通常会降低结果，但可能会改善结果（增强泛化性能）。
优雅地处理新变量（例如：新的用户代理）（新的类别重新hash然后合并即可）（关于hash编码可见facebook对于文本的处理的那篇论文，忘了叫啥了，回头补充在编码的文章里好了）

一个简单的例子

为每个类别变量赋予唯一的数字ID

一个简单的例子

关注