大话数据挖掘常用算法(上)

#博学谷IT学习技术支持#      

         数据分析师,除了数理统计、统计学、Excel函数等基本技能之外,还需要掌握数据挖掘算法,进行深度挖掘出有价值的数据,这也是数据分析专家和一般数据分析师的差距之一。

        数据挖掘算法主要有分类算法、聚类算法和关联规则三大类,这三类基本上涵盖了目前商业市场对算法的所有需求,而这三类里又有非常多的细分。

算法分类

        连接分析:PageRank

        关联分析:Apriori

        分类算法:C4.5,朴素贝叶斯,SVM,KNN,Adaboost,CART

        聚类算法:K-Means,EM

一、PageRank

算法思想:

        当一篇论文被引用的次数越多,证明这篇论文的影响力越大。

        比如一个网页的入口越多,入链越优质,网页的质量越高。

计算逻辑:

        网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

        一个网页的影响力:所有入链的页面的加权影响力之和。一个网页对其他网页的影响力贡献为:自身影响力/出链数量。用户并不都是按照跳转链接的方式来上网,还有其他的方式,比如直接输入网址访问。所以需要设定阻尼因子,代表了用户按照跳转链接来上网的概率。

举例说明:

1、微博粉丝数:挖掘粉丝的数量和质量,如果是僵尸粉没什么用,但如果是很多高品质用户关注,则代表影响力很高。

2、店铺的经营:顾客比较多的店铺质量比较好,但是要看看顾客是不是托。

拓展知识:

关于阻尼因子:通过你的邻居的影响力来评判你的影响力,但是如果不能通过邻居来访问你,并不代表你没有影响力,因为可以直接访问你,所以引入阻尼因子的概念。海洋除了有河流流经,还有雨水,但是下雨是随机的。提出阻尼系数,还是为了解决某些网站明明存在大量出链(入链),但是影响力却非常大的情形。

出链例子:hao123导航网页,出链极多入链极少。入链例子:百度谷歌等搜索引擎,入链极多出链极少。

二、Apriori(关联分析)

算法思想:

关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系。

支持度

某个商品组合出现的次数与总次数之间的比例。

5次购买,4次买了牛奶,牛奶的支持度为4/5=0、8。

5次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0、6。

置信度

购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少。

买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0、5。

买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3-0、67。

提升度

衡量商品A的出现,对商品B的出现 概率提升的程度。

提升度(A->B)=置信度(A->B)/支持度(B)。

提升度>1,有提升;提升度=1,无变化;提升度<1,下降。

频繁项集

项集:可以是单个商品,也可以是商品组合。

频繁项集是支持度大于最小支持度(Min Support)的项集。

计算逻辑:

1、从K=1开始,筛选频繁项集。

2、在结果中,组合K+1项集,再次筛选。

3、循环1,2步。直到找不到结果为止,K-1项集的结果就是最终结果。

拓展知识:

Apriori 算法需要多次扫描数据库,性能低下,不适合大数据量。

FP-growth算法,通过构建 FP 树的数据结构,将数据存储在 FP 树中,只需要在构建 FP 树时扫描数据库两次,后续处理就不需要再访问数据库了。

举例说明:啤酒和尿不湿摆在一起销售

沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。

父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己,于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段,这个举措居然使尿不湿和啤酒的销量都大幅增加。

FP-Growth 算法

三、AdaBoost

算法思想:

将一系列的弱分类器以不同的权重比组合,训练成为一个强分类器。

计算逻辑:

1、初始化基础权重。

2、奖权重矩阵,通过已的分类器计算错误率,选择错误率最低的为最优分类器。

3、通过分类器权重公式,减少正确样本分布,增加错误样本分布,得到新的权重矩阵和当前k轮的分类器权重。

4、将新的权重矩阵,带入上面的步骤2和3,重新计算权重矩阵。

5、迭代N轮,记录每一轮的最终分类器权重,得到强分类器。

利用错题提升学习效率

做正确的题,下次少做点,反正都会了。

做错的题,下次多做点,集中在错题上。

随着学习的深入,做错的题会越来越少。

合理跨界提高盈利

苹果公司,软硬结合,占据了大部分的手机市场利润,两个领域的知识结合起来产生新收益。

四、C4.5(决策树)

算法思想:

决策就是对于一个问题,有多个答案,选择答案的过程就是决策。

C4.5算法是用于产生决策树的算法,主要用于分类。

C4.5使用信息增益率做计算(ID3算法使用信息增益做计算)。

C4.5选择最有效的方式对样本集进行分裂,分裂规则是分析所有属性的信息增益率。

信息增益率越大,意味着这个特征分类的能力越强,我们就要优先选择这个特征做分类。

举例说明:

拿到一个西瓜,先判断它的纹路,如果很模糊,就认为这不是好瓜,如果它清晰,就认为它是一个好瓜,如果它稍稍模糊,就考虑它的密度,密度大于某个值,就认为它是好瓜,否则就是坏瓜。
————————————————
版权声明:本文为CSDN博主「吕淮子」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/hzlil/article/details/123967452

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值