(Scikit-Learn)特征工程：分类特征，文本特征，衍生特征，缺省值填充，管道特征

最新推荐文章于 2024-05-23 10:23:40 发布

STILLxjy

最新推荐文章于 2024-05-23 10:23:40 发布

阅读量1.1k

点赞数 1

分类专栏： ——机器学习——

本文链接：https://blog.csdn.net/STILLxjy/article/details/95934789

版权

特征工程
(1)分类特征
浏览房屋数据的时候，除了看到“房价” （price）和“面积”（rooms）之类的数值特征，还会有“地点”（neighborhood）信息，数据可能像这样：

data = [
    {'price': 850000, 'rooms': 4, 'neighborhood': 'Queen Anne'},
    {'price': 700000, 'rooms': 3, 'neighborhood': 'Fremont'},
    {'price': 650000, 'rooms': 3, 'neighborhood': 'Wallingford'},
    {'price': 600000, 'rooms': 2, 'neighborhood': 'Fremont'}
    ]

你可能会把分类特征用映射关系编码成整数： {‘Queen Anne’: 1, ‘Fremont’: 2, ‘Wallingford’: 3};

但是，在 Scikit-Learn 中这么做并不是一个好办法：这个程序包的所有模块都有一个基本假设，那就是数值特征可以反映代数量（algebraic quantities）。因此，这样映射编码可能会让人觉得存在 Queen Anne < Fremont < Wallingford，甚至还有 Wallingford - Queen Anne = Fremont，这显然是没有意义的