变量筛选和变换
我们在尽心数据处理中会遇到变量的筛选问题
这里我们不是PCA(主成分分析),就是简单的人工变量筛选,
比如就像提取其中几个变量,或者想删除一些变量,还有就是某一个变量根据内容的一些简单筛选和变换。
1、选择部分变量
首先我们看下数据结构
定义一个x_col2来存储需要用到的变量名称
2、删除部分变量
如果我们要用到数据集的大部分数据,我们就可以采取删除其中的几个变量的方法
定义一个drops存储需要删除的变量,用一个for循环就可以把需要删掉的变量去除了
3、选取变量部分值
比如我们想筛选出y变量中为0的样本
data=data[data.y.map(lambda x: x in [0])]
4、变量值的变换
比如有些离散型变量需要实际情况进行转换,一般情况下是字符串行转换成数值型
这里我们制作演示,把数值型转换为字符串,其实操作是一样的