常用特征选择方法

  本文展示了三种常用的特征选择方法:皮尔逊相关系数法、递归特征消除法、格兰杰因果检验法。
  本文使用的数据集在本人上传的资源中,链接为mock_kaggle.csv

import pandas as pd
import numpy as np
import math
from matplotlib import pyplot as plt
from matplotlib.pylab import mpl
import tensorflow as tf
mpl.rcParams['font.sans-serif'] = ['SimHei']   #显示中文
mpl.rcParams['axes.unicode_minus']=False       #显示负号

取数据

data=pd.read_csv('mock_kaggle.csv',encoding ='gbk',parse_dates=['datetime'])
Date=pd.to_datetime(data.datetime)
data=data.iloc[:,1:]
datanew=data.set_index(Date)
datanew
特价 股票 价格
datetime
2014-01-01 0 4972 1.29
2014-01-02 70 4902 1.29
2014-01-03 59 4843 1.29
2014-01-04 93 4750 1.29
2014-01-05 96 4654 1.29
... ... ... ...
2016-07-27 98 3179 2.39
2016-07-28 108 3071 2.39
2016-07-29 128 4095 2.39
2016-07-30 270 3825 2.39
2016-07-31 183 3642 2.39

937 rows × 3 columns

方法一:皮尔逊相关系数法

  皮尔逊相关系数法:用于衡量两个特征的线性相关程度。值大于0,表示两个变量正相关;值小于0,表示两个变量负相关;绝对值越大表示两个变量的线性相关程度越大。值等于0只能说明两个变量不是线性相关,但有可能是其它方式的相关。

datanew.corr(method=
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值