数据挖掘之--啥都不会到逻辑回归

QQ交流群:127591054
JackChiang QQ:595696297 欢迎大家来交流。

作者经历:17年7月刚毕业的童孩~~16年底实习半年在做DBA,中途有变,想把数据挖掘作为自己的长远职业,也就是职业规划定位:数据挖掘。偏爱做数据分析,没办法。但是!但是!但是!挖掘的门槛真的好高!好高!好高!快毕业的时候辞去在电信的工作,来了一场说走就走的旅途,一个人!!!去了云南,带上仅有的200块钱!!!(大家别张嘴,我在飞猪报的团),云南很美!就不发图了。

回来开始找工作,真的很难!很难!很难,基本没人要!啥都不会,这样持续了一个月!这一个月是难熬的,信用卡欠了3千等等。静下心来想了想自己为什么选这个?为什么没人要?

原因我归于:
1、挖掘这一块需要大量的理论知识!!自己都学过,但是都忘了,等于0。
2、没有分析这一块的经验,完全在面试官面前就是0的概念。
3、我要是面试官,看见这样的我!也不会要,如一个面试官说的:你表达的很诚恳的样子,但是你没有为此做过任何努力!!

这句话我想了好久,停止了再找这一块的工作。
这也是找了好久工作,连面试电话都没有的原因了。然后无意接触到ETL,简单的来说就是清洗数据,然后送给挖掘分析!没办法,先从上一级干起,慢慢进入挖掘或者说是机器学习!几个月前就是这样想的。
可能是我运气好吧!之前拒绝过的一家公司,又要了我!不对收留了我。公司主管很好,但是!但是!但是!对我特别凶!特别凶!特别凶!感觉就是我高三班主任,她还是个四川的妹子!!!29岁!关键还不丑。。。。。。

她问了问我的想法,让我先做ETL说我现在这个水平,挖掘慢慢来!的确是。她吧公司做挖掘这一块的经理介绍给我,指导我如何学习!!这东西我感觉一开始,就是学数学!!!!!而我现在就在学数学!!他给我布置了个任务两周之内搞懂“逻辑回归”,是在工作以外的时间学习!因为我ETL要去项目上出差特别忙!!那就看呗。。。于是下面的笔记就造出来了,也和他讲了讲!然后他叫我继续学习补数学!

以上就是我刚入坑:数据挖掘/机器学习的背景!!!

此篇文章是我从我Word笔记中挪过来的,好麻烦,大家如果想看Word可以去下面链接下载。
http://download.csdn.net/download/jack__chiang/9970290

第一篇文章:很浅四处摘抄,添加自己理解,用Python实现。还是有很大收获的。
希望可以帮到大家,我希望17年底可以正式入挖掘的坑!!祝愿我吧。

1、概念

逻辑回归简称LR,可是说是互联网领域应用最广泛的自动分类算法:从单机运行的垃圾邮件自动识别程序到需要成百上千台机器支撑的互联网广告投放系统,其算法主干都是LR。百度的解释:LR算法是Logistic Regression的简写,中文翻译为逻辑回归算法。LR分析是当前最一般的分析方法。它对文法的限制最少,现今能用上下文无关文法描述的程序设计语言一般均可用LR方法进行有效的分析。而且在分析的效率上也不比诸如不带回溯的自顶向下分析、一般的“移进归约”以及算符优先等分析方法逊色。此外,LR分析器在工作过程中,还能准确及时地发现输入符号串的语法错误。凡此种种,就使LR分析方法在国际上受到了广泛的重视。

2、一个例子

大家在平时的工作和学习当中会经常遇到各种决策问题:例如这封邮件是不是垃圾邮件,这个用户是不是对某个商品感兴趣呢?这个房子到底买不买呢?然而当我们需要通过机器学习这样一个学科解决的时候,也就是第一步需要对这些问题进行决策,最常用的方法就是构建一个叫做分类器的程序。这种程序的输入是待决策的一系列特性,输出的就是这个程序的判定结果。以垃圾邮件分类为例子,每一封邮件就是一个待决策的问题,而我们通常使用的特性就是从这个邮件本身抽取的一系列我们认为可能相关的信息,例如发件人,邮件长度,时间,邮件中的关键词,标点符号,是否有多个收件人等等。给定了这些特征我们的垃圾邮件分类器就可以判定出这封邮件是不是垃圾邮件。至于我们怎么得到这个邮件分类的程序,通常的做法就通过某种机器学习算法。之所以称之为学习,是因为这些算法通常需要已经标注好的样本,例如:100封邮件,每封信已经明确了标注的是否是垃圾邮件,然后这个算法就是自动的产生一个关于这个问题的自动分类程序。然而逻辑回归就是最常用的一个机器学习的分类算法。
LR模型原理简单,并且有一个现成的叫做LIBLINEAR的工具库,易于上手而且效果不错。
LR可以说是互联网上最常用的的也就是最有影响力的分类算法。LR几乎是所有广告系统中和推荐系统中点击率预估模型的基本算法。
LR同时也就炙手可热的深度学习的基本组成单元,扎实的掌握LR也有助于学好深度学习。

3、学习逻辑回归的三个阶段

1、了解LR模型准备工作

1、首先学习极大似然估计,大学学习过都忘记了。
概念:极大似然估计是根据样本(x1,x2,…,xi,…,xn)的值来估计样本模型中参数(θ1,θ2,…,θi,…,θn)的。是一种参数估计方法。
其中,似然是似然函数的简称。可由L(x1,x2,…,xi,…,xn,θ1,θ2,…,θi,…,θn )来表示。实际上,样本一旦确定,人们一般会假设一个可拟合这些样本的模型,即参数个数是确定的,待求的是参数的具体值。比如,基于班上同学的身高数据,一般会假设身高是符合正态分布(μ,σ),待求的是这两个参数具体的值。
  那么,如何基于已有的样本数据来求得模型中参数得具体值呢?
  极大似然估计的意思是说,你只要能使L(x1,x2,…,xi,…,xn,θ1,θ2,…,θi,…,θn )最大,你的参数θ1,θ2,…,θi,…,θn 就是有效的。
  以身高样本为例(假定身高样本是独立同分布的)。即当L(x1,x2,…,xi,…,xn,μ,σ )最大时,(μ,σ)被估计的是准确的。
  
  求极大似然函数估计值的一般步骤:
  (1) 写出似然函数;
  (2) 对似然函数取对数,并整理;
  (3) 求导数 ;
  (4)导数为零时,似然函数取得极大值 。
  
下面通过一个例子介绍极大似然估计法的思想和方法。

设一袋中装有黑、白两种球。设p是从袋中随机摸得一个白球的概率,现要估计p的取值。
根据问题,我们令总体X为
X={
1, if get white ball
0, if get black ball
{
则X服从0-1分布B(1,p),其中P(X=1)=p, P(X=0)=1-p.
为估计p,我们做有放回摸球10次,其结果可用随机变量表示如下:
Xi={
1, if get white ball
0, if get black ball i=1,2,…,10.
{
则X1,X2,…,X10是来自总体X的一个样本。若10次摸球的结果是样本观测值(x1,x2,…,x10)=(1,0,1,0,0,0,1,0,0,0),则其似然函数为
L(p)=P(X1=1,X2=0,X3=1,X4=0,X5=0,X6=0,X7=1,X8=0,X9=0,X10=0)=p3(1−p)7

即L(p)=p3(1−p)7是在10次摸球中出现观测值(1,0,1,0,0,0,1,0,0,0)的概率。
极大似然估计法的思想

随机试验有若干个可能的结果,如果在一次试验中某一结果出现了,有小概率事件原理,我们便自然认为这一结果出现的概率较大,从而可以认为这一结果是所有结果中出现概率最大的一个。因此p应该这样估计,即选择p^,使得上述观测值出现的概率最大。也就是说使L(p^)为L(p)的最大值。而求得L(p)的最大值点p^,可由方程

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值