使用R进行逻辑回归 分类

逻辑回归模型

      属于分类模型,二元分类器。类似的二元分类器还有决策树、随机森林、支持向量机以及神经网络。

 

     逻辑回归模型相对于k-邻近模型,具有“运行时间”低的优势。 当数据空间很大时,预测新数据的类别需要计算这个数据点的k个“邻居”,因此需要把所有的新旧数据点都存在内存中,这通常会耗费大量的“运行时间”。而线性模型则不然,无论模型更新还是用作实际预测,它的速度通常都令人满意,线性模型的更新只涉及到新的数据,因此不需要把旧数据也放在内存中,这极大的提高了运行速度。一旦线性模型的参数估计完毕,只需要保存这些参数的估计值,预测新数据只涉及计算参数估计向量与新数据特征变量的点积问题。

       在《数据科学实践》中,以M6D的真实案例进行研究来说明逻辑回归模型的内容。

 

要解决的问题:

    根据用户鼠标点击屏幕中广告的情况,获取广告展示的点击率。分析商业模式、给定广告能够向目标用户展示,提供多大的价值?

 

解决思路:

   选用什么样的数据来分析这个问题?如何使用模型来提高广告点击度?

  

    一个用户访问广告就是记录一条URL字符串,那么,如果每个用户都这样表示,建立一个二维矩阵来表示全部用户访问历史。

   矩阵的行代表用户,矩阵的列代表访问的网站。矩阵中的元素值为1表示用户访问过相应网站,元素值为0表示没有访问相应网站。

 

通过搭建模型、在数据集上训练模型。 逻辑回归的输出值是用户点击某个广告的概率值。

 

逻辑回归主要用到一个函数将数据转换为[0,1]之间的数值  Logit(P) = log(p) - log(1-p) , 其中P表示函数变量,的逻辑函数。

 

具体逻辑回归基础概念可以参考:

http://www.tuicool.com/articles/auQFju 

http://blog.csdn.net/pakko/article/details/37878837

 

用R代码:

 

 

 

    

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值