Sklearn常用特征提取和处理方法

最新推荐文章于 2024-05-23 17:51:39 发布

sxjcfrd

最新推荐文章于 2024-05-23 17:51:39 发布

阅读量4.8k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sxjcfrd/article/details/82682991

版权

特征分为：连续数值类型和分类类型。其中连续数值类型通常需要做归一化。分类类型必须因子化

1、将分类变量转换为数值编号，才可以被处理

import pandas as pd
import numpy as np
from sklearn import preprocessing

用LabelEncoder对不同的犯罪类型编号
leCrime = preprocessing.LabelEncoder()
crime = leCrime.fit_transform(train.Category)

2、将分类特征因子化

为什么要因子化：
对于类型因变量。如果仅仅采用数值编码，那最大的问题就是在这种处理方式中，各种类别的特征都被看成是有序的，这显然是非常不符合实际场景的，所以因子化

方法有两种：

1） pandas 的 get_dummies()方法，

days = pd.get_dummies(train.DayOfWeek)
district = pd.get_dummies(train.PdDistrict)
dummies_Cabin = pd.get_dummies(data_train[‘Cabin’], prefix= ‘Cabin’)

2） sklearn.preprocessing.OneHotEncoder方法

enc =

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Sklearn常用特征提取和处理方法

1、将分类变量转换为数值编号，才可以被处理import pandas as pd import numpy as np from sklearn import preprocessing用LabelEncoder对不同的犯罪类型编号 leCrime = preprocessing.LabelEncoder() crime = leCrime.fit_transform(train....
复制链接

扫一扫

sxjcfrd CSDN认证博客专家 CSDN认证企业博客

码龄21年

10: 原创

27万+: 周排名

204万+: 总排名

2万+: 访问

: 等级

363: 积分

4: 粉丝

6: 获赞

4: 评论

52: 收藏

私信

关注

热门文章

最新评论

sklearn 和 bagging 示例代码
也只能是我: X_train是你自己的训练数据，y_train是标签
sklearn 和 bagging 示例代码
m0_69295462: X_train未定义什么情况
手写神经网络解决解决Mnist数字集
榨菜rose: 楼主，您好！对backprop函数的29与30行表示很疑惑？[code=python] delta = (activations[-1]-y) * sigmoid_prime(zs[-1]) nabla_b[-1] = delta [/code] 为什么biase项的求导与w的求导的delta，都是传入了sigmoid_prime(z)?而sigmoid_prime的函数却并没有对b求导还是w求导做出区别啊？望指教
机器学习建模基本过程
weixin_42230611: 你好，这个流程是哪一本书写的吗?因为写论文需要文献支撑所有希望博主可以回复我谢谢谢谢！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。