逻辑回归模型
属于分类模型,二元分类器。类似的二元分类器还有决策树、随机森林、支持向量机以及神经网络。
逻辑回归模型相对于k-邻近模型,具有“运行时间”低的优势。 当数据空间很大时,预测新数据的类别需要计算这个数据点的k个“邻居”,因此需要把所有的新旧数据点都存在内存中,这通常会耗费大量的“运行时间”。而线性模型则不然,无论模型更新还是用作实际预测,它的速度通常都令人满意,线性模型的更新只涉及到新的数据,因此不需要把旧数据也放在内存中,这极大的提高了运行速度。一旦线性模型的参数估计完毕,只需要保存这些参数的估计值,预测新数据只涉及计算参数估计向量与新数据特征变量的点积问题。
在《数据科学实践》中,以M6D的真实案例进行研究来说明逻辑回归模型的内容。
要解决的问题:
根据用户鼠标点击屏幕中广告的情况,获取广告展示的点击率。分析商业模式、给定广告能够向目标用户展示,提供多大的价值?
解决思路:
选用什么样的数据来分析这个问题?如何使用模型来提高广告点击度?
一个用户访问广告就是记录一条URL字符串,那么,如果每个用户都这样表示,建立一个二维矩阵来表示全部用户访问历史。
矩阵的行代表用户,矩阵的列代表访问的网站。矩阵中的元素值为1表示用户访问过相应网站,元素值为0表示没有访问相应网站。
通过搭建模型、在数据集上训练模型。 逻辑回归的输出值是用户点击某个广告的概率值。
逻辑回归主要用到一个函数将数据转换为[0,1]之间的数值 Logit(P) = log(p) - log(1-p) , 其中P表示函数变量,的逻辑函数。
具体逻辑回归基础概念可以参考:
http://www.tuicool.com/articles/auQFju
http://blog.csdn.net/pakko/article/details/37878837
用R代码: