大话数据挖掘常用算法（上）

最新推荐文章于 2024-09-11 10:01:43 发布

吕淮子

最新推荐文章于 2024-09-11 10:01:43 发布

阅读量2.3k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hzlil/article/details/123967750

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

#博学谷IT学习技术支持#

数据分析师，除了数理统计、统计学、Excel函数等基本技能之外，还需要掌握数据挖掘算法，进行深度挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。

数据挖掘算法主要有分类算法、聚类算法和关联规则三大类，这三类基本上涵盖了目前商业市场对算法的所有需求，而这三类里又有非常多的细分。

算法分类

连接分析：PageRank

关联分析：Apriori

分类算法：C4.5，朴素贝叶斯，SVM，KNN，Adaboost，CART

聚类算法：K-Means，EM

一、PageRank

算法思想：

当一篇论文被引用的次数越多，证明这篇论文的影响力越大。

比如一个网页的入口越多，入链越优质，网页的质量越高。

计算逻辑：

网页影响力=阻尼影响力+所有入链集合页面的加权影响力之和

一个网页的影响力：所有入链的页面的加权影响力之和。一个网页对其他网页的影响力贡献为：自身影响力/出链数量。用户并不都是按照跳转链接的方式来上网，还有其他的方式，比如直接输入网址访问。所以需要设定阻尼因子，代表了用户按照跳转链接来上网的概率。

举例说明：

1、微博粉丝数：挖掘粉丝的数量和质量，如果是僵尸粉没什么用，但如果是很多高品质用户关注，则代表影响力很高。

2、店铺的经营：顾客比较多的店铺质量比较好，但是要看看顾客是不是托。

拓展知识：

关于阻尼因子：通过你的邻居的影响力来评判你的影响力，但是如果不能通过邻居来访问你，并不代表你没有影响力，因为可以直接访问你，所以引入阻尼因子的概念。海洋除了有河流流经，还有雨水，但是下雨是随机的。提出阻尼系数，还是为了解决某些网站明明存在大量出链（入链），但是影响力却非常大的情形。

出链例子：hao123导航网页，出链极多入链极少。入链例子：百度谷歌等搜索引擎，入链极多出链极少。

二、Apriori（关联分析）

算法思想：

关联关系挖掘，从消费者交易记录中发掘商品与商品之间的关联关系。

支持度

某个商品组合出现的次数与总次数之间的比例。

5次购买，4次买了牛奶，牛奶的支持度为4/5=0、8。

5次购买，3次买了牛奶+面包，牛奶+面包的支持度为3/5=0、6。

置信度

购买了商品A，有多大概率购买商品B，A发生的情况下B发生的概率是多少。

买了4次牛奶，其中2次买了啤酒，(牛奶->啤酒)的置信度为2/4=0、5。

买了3次啤酒，其中2次买了牛奶，(啤酒->牛奶)的置信度为2/3-0、67。

提升度

衡量商品A的出现，对商品B的出现概率提升的程度。

提升度(A->B)=置信度(A->B)/支持度(B)。

提升度>1，有提升；提升度=1，无变化；提升度<1，下降。

频繁项集

项集：可以是单个商品，也可以是商品组合。

频繁项集是支持度大于最小支持度（Min Support）的项集。

计算逻辑：

1、从K=1开始，筛选频繁项集。

2、在结果中，组合K+1项集，再次筛选。

3、循环1，2步。直到找不到结果为止，K-1项集的结果就是最终结果。

拓展知识：

Apriori 算法需要多次扫描数据库，性能低下，不适合大数据量。

FP-growth算法，通过构建 FP 树的数据结构，将数据存储在 FP 树中，只需要在构建 FP 树时扫描数据库两次，后续处理就不需要再访问数据库了。

举例说明：啤酒和尿不湿摆在一起销售

沃尔玛通过数据分析发现，美国有婴儿的家庭中，一般是母亲在家照顾孩子，父亲去超市买尿不湿。

父亲在购买尿不湿时，常常会顺便搭配几瓶啤酒来犒劳自己，于是，超市尝试推出了将啤酒和尿不湿摆在一起的促销手段，这个举措居然使尿不湿和啤酒的销量都大幅增加。

FP-Growth 算法

三、AdaBoost

算法思想：

将一系列的弱分类器以不同的权重比组合，训练成为一个强分类器。

计算逻辑：

1、初始化基础权重。

2、奖权重矩阵，通过已的分类器计算错误率，选择错误率最低的为最优分类器。

3、通过分类器权重公式，减少正确样本分布，增加错误样本分布，得到新的权重矩阵和当前k轮的分类器权重。

4、将新的权重矩阵，带入上面的步骤2和3，重新计算权重矩阵。

5、迭代N轮，记录每一轮的最终分类器权重，得到强分类器。

利用错题提升学习效率

做正确的题，下次少做点，反正都会了。

做错的题，下次多做点，集中在错题上。

随着学习的深入，做错的题会越来越少。

合理跨界提高盈利

苹果公司，软硬结合，占据了大部分的手机市场利润，两个领域的知识结合起来产生新收益。

四、C4.5（决策树）

算法思想：

决策就是对于一个问题，有多个答案，选择答案的过程就是决策。

C4.5算法是用于产生决策树的算法，主要用于分类。

C4.5使用信息增益率做计算（ID3算法使用信息增益做计算）。

C4.5选择最有效的方式对样本集进行分裂，分裂规则是分析所有属性的信息增益率。

信息增益率越大，意味着这个特征分类的能力越强，我们就要优先选择这个特征做分类。

举例说明：

拿到一个西瓜，先判断它的纹路，如果很模糊，就认为这不是好瓜，如果它清晰，就认为它是一个好瓜，如果它稍稍模糊，就考虑它的密度，密度大于某个值，就认为它是好瓜，否则就是坏瓜。
————————————————
版权声明：本文为CSDN博主「吕淮子」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/hzlil/article/details/123967452

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大话数据挖掘常用算法（上）

#博学谷IT学习技术支持# 数据分析师，除了数理统计、统计学、Excel函数等基本技能之外，还需要掌握数据挖掘算法，进行深度挖掘出有价值的数据，这也是数据分析专家和一般数据分析师的差距之一。数据挖掘算法主要有分类算法、聚类算法和关联规则三大类，这三类基本上涵盖了目前商业市场对算法的所有需求，而这三类里又有非常多的细分。算法分类连接分析：PageRank 关联分析：Apriori 分类算法：C4.5...
复制链接

扫一扫

专栏目录

吕淮子 CSDN认证博客专家 CSDN认证企业博客

码龄5年

16: 原创

50万+: 周排名

170万+: 总排名

4万+: 访问

: 等级

197: 积分

275: 粉丝

11: 获赞

5: 评论

38: 收藏

私信

关注

热门文章

分类专栏

python 1篇
机器学习 6篇
web开发 1篇
Spark
LInux 3篇
数据治理 1篇

最新评论

Redhat7.3安装wget及yum命令方法
weixin_43393170: 就你这个好使
pandas转json去掉index索引
福气耶满满: 所以说，最终的能不能去掉索引，以及怎么去掉？如果去不掉的话，哪一种方式在read_json方式下最好？
pandas dataframe的APIto_sql写入mysql时，报错：Incorrect string value
CSDN-Ada助手: 恭喜您写了第18篇博客！看到您在解决"Pandas DataFrame的API to_sql写入MySQL时报错：Incorrect string value"的问题上的努力，我感到非常欣慰。写博客是一个很好的方式来分享知识和经验，您的持续创作无疑为读者提供了很多帮助。关于下一步的创作建议，我想谦虚地提出一个建议：您可以尝试探索一些其他常见的错误和解决方案。这样一来，读者将有机会了解更多关于Pandas DataFrame和MySQL之间的常见问题，并从您的经验中获益。同时，您也可以分享一些在实践中遇到的挑战，并提供解决问题的方法。继续保持努力和创作，期待您未来更多精彩的博客！
Redhat7.3安装wget及yum命令方法
Chen_leilei: 全网就你这个是干货！！！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。