数据挖掘——逻辑回归

逻辑回归

研究人员对使用雌激素与子宫内膜癌发病间的关系进行了1:1配对的病例对照研究。病例与对照按年龄相近、婚姻状况相同、生活的社区相同进行了配对。收集了年龄、雌激素药使用、胆囊病史、高血压和非雌激素药使用的数据。变量定义及具体数据如下:

match:配比组

casecase=1病例;case=0对照(未发病

estest=1使用过雌激素;est=0未使用雌激素

gallgall=1有胆囊病史;gall=0无胆囊病史

hyper:hyper=1有高血压;hyper=0无高血压

nonest:nonest=1使用过非雌激素;nonest=0未使用过非雌激素

Match

Case

Est

Gall

Hyper

Nonest

1

1

1

1

0

1

1

0

0

1

0

0

2

1

1

0

1

1

2

0

0

0

0

1

3

1

1

1

0

1

3

0

1

0

1

1

4

1

1

0

0

0

4

0

1

0

1

1

5

1

1

0

1

1

5

0

0

0

0

0

6

1

1

1

0

1

6

0

0

0

0

0

7

1

1

0

0

1

7

0

0

0

0

0

8

1

1

1

1

1

8

0

0

0

1

1

9

1

1

0

0

1

9

0

1

0

0

1

10

1

0

0

0

1

10

0

0

0

0

1

11

1

1

0

1

1

11

0

1

0

1

1

12

1

0

0

0

1

12

0

0

0

1

1

13

1

1

0

1

1

13

0

0

0

0

0

14

1

1

0

0

1

14

0

0

0

0

0

15

1

1

0

1

1

15

0

1

0

0

1

16

1

1

0

0

1

16

0

1

0

1

1

17

1

1

0

0

1

17

0

0

0

0

0

18

1

0

1

0

1

18

0

0

0

1

0

19

1

1

1

0

1

19

0

1

1

0

0

20

1

1

0

0

0

20

0

1

0

1

1

(1) 调用逻辑回归函数或实现求解L2逻辑回归分析的梯度下降算法,求出最优的逻辑回归模型;

(2) 尝试找出对影响子宫内膜癌发病的最直接的因素;

(3) 编程实现求解L2正则化逻辑回归分析的梯度下降算法,并求出正则化平衡系数1时的最优正则化逻辑回归模型(加分题)。

答:

(1)

假设函数 (x) = 

代价函数 J() = -[log+(1-)log(1-)],

通过梯度下降的方法最小化 J(), =-

最终求得 = [-2.6653, 2.2190, 1.0641, -1.7730, 2.2363]


(2)

影响子宫内膜癌发病的最直接的因素为是否使用过非雌激素即Nonest.

(3)

求出来的回归模型为,

其中求得的为[-0.1246, 0.1045, 0.0471, -0.0259, 0.0813]。

部分代码如图:其中,这里迭代次数选取20000,学习率取0.01.




  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值