2017.05.05回顾 关于决策边界的一些思考

星期五最重要的一个收获是在快下班的时候,关于LR在二维平面上的决策边界问题,一般来说以大于0.5为1,小于0.5为0,所以决策边界就是令Z = 0,也就是W0 + W1 * X1 + W2 * X2 = 0,在二维平面上画图的时候,就是X2 = (-W0-W1*X1)/W2,用这个式子找两个点就可以画出一条决策边界,但是对于bad rate很低的数据集,必然所有的点prob都小于0.5,也就是在决策边界的一边,斜率不变,平移这条决策边界,也就是在改变Z = 0,变为Z = C,开始我有点迷惑的是Z > 0和Z < 0在这条决策边界的哪一边?我开始的做法是假设了一条线,y = f(x) = ax + b这样,然后把其变成F(x,y) = 0这样一个式子,然后带入直线某一边的某个点看其结果是大于0还是小于0,带入后我发现与实际情况是相悖的,我就一直在这个地方纠结,后来恍然大悟,存在一个负号的问题,因为我是把y = f(x) = ax + b还原成的F(x,y) = 0,左右两边乘以一个负号,式子是不变的,但是那个点带入F(x,y)的时候,就有一个负号的关系,回到问题的原点,我们是先就有这样一个 Z = 0,才把它变成了y = ax + b进行作图,所以点应该带入到Z出来做判断,最后我平移画出了一个比较好的决策边界,首先这个问题温习了带点法去判断线不等式的划分区域,然后明确了谁先谁后的问题,Z = 0才是先,y = ax + b只是为了画图

下午基本上就是编辑邮件,说清楚模型的事情,一定要加强文档能力

上午和SIMON线性可分的判断问题,有一个问题我还没来得及思考,他的观点我还需要思考一下。上午还做了什么?上午就是SIMON提出了观点,我在做相关的一些思考和程序准备,下午还给了wilfred一些SQL


2017/05/09更新,我后来思考了一下,思考过程如下:

我最开始用等容量的方式画了一个图,然后呈现一定的对角线性质
然后我告诉boss,说明了线性可分性,我这个说法遭到了质疑
我这种说法是否真有问题?
我们和另外一种方法比较,我画出所有的散点图,然后观察是否存在一条直线可以很好地划分数据集,这样说明线性可分是不是很好?没有问题的?肉眼如果观察不错,可以说明用直线去划分还是不错的!所以这个是比较好的方法,但是我实践发现这个方法并没有等距分成几个bin然后观察更直观,这个也是SIMON所建议的方法,所以观察是否线性可分或者说用直线能否做很好的划分,后两者的确更佳。
那现在的问题回到前面,等容量的方法能否比较粗略(相较于等距的方法)观察是否可以线性划分呢?
1、考虑一种特例,如果等容量恰好和等距是相同的,那等容量肯定没问题
2、现在的问题就是把等容量的还原到真实的坐标上的时候,每个CELL肯定有大有小,但我还是可以找到一条直线去做一个划分,但是这条直线和等容量的时候那条直接就是两码子事了啊
3、下面再考察一个问题,等容量时候画的那条直线,在等bin的时候该怎么对应过去?对角线画法是否合理?合理的,所以等价过来,就不是线性了啊
OK,这个问题解决了
那下面再提一个问题,我们看线性可分,用等步长的方式看到底是否存在问题?
等步长我画一条直线还原出来就是一条直线(每个格子的对角线),所以没问题,我现在思考的是不是对角线的情况,这个要看划线的时候是怎样一个定义,本身每一格都只是一个统计值,如果把格子作为一种长度度量,画了再还原还是没问题,所以这种粗略地看,我觉得没问题


最后一个问题,那等容量的看意义何在呢?
1、大概可以看一下,一个认为好的,另外一个认为如何?
2、难道还能发现啥子非线性关系?本身直线还原出来都有可能是非线性的,怎么看?
和Simon讨论了下,结论感觉就是等容量看不出什么东西,只能有一些感性认识,比如一个认为好的,另一个认为也好,这种结论,讨论线性可分还是用原始图,和等步长图比较好!


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值