逻辑回归用于二分类问题,用于判断一个离散性的特征得到的标签类型的概率。
,
被称为sigmoid函数,Logistic Regression 算法是将线性函数的结果映射到了sigmoid函数中。sigmoid的函数图形如下:
我们可以看到,sigmoid的函数输出是介于(0,1)之间,中间值是0.5。所以我们可以用sigmoid函数来表示样本数据的概率密度。
1.读取数据
2.获取特征数据
3.获取预测分类
4.随机逻辑回归模型
fit(X,Y) Fit the model using X,Y as training data.
X:array-like,Training samples 训练样本
Y:array-like,Target values 目标值,如果需要的话可以转化为训练样本的数据类型。
5.获取特征的筛选结果
get_support([indices=False]) 获取所选列的掩码或证书索引
参数说明:indices: boolean ,默认False
返回值:从特征向量中选择保留特征的索引。
如果indices为False,则这是一个布尔数组[#输入要素],如果为其保留选择了其对应的特征,则元素为True
如果indices为True,则这是一个整形数组[#输出要素],其值是输入要素向量中的索引
6.获取score值
score(X,Y[,sample_weight]) 返回给定测试数据和标签的平均精度
7.获取新的特征矩阵
8.建立训练数据和测试数据
train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取训练数据(train)和测试数据(test)
第1个参数:所要划分的样本特征
第2个参数:所要划分的样本特征
random_state:它的用途是在随机划分训练集和测试集时候,划分的结果并不是那么随机,也即,确定下来random_state是某个值后,重复调用这个函数,划分结果是确定的
9.进行逻辑训练
10.查看训练模型的参数
a:逻辑回归的回归系数
b:逻辑回归系数
11.预测数据
使用模型的predict方法对划分的X的测试数据进行预测得值“违约”情况
12.获取准确率