数据挖掘相关知识点2

最新推荐文章于 2024-01-08 01:28:01 发布

Miraclemie

最新推荐文章于 2024-01-08 01:28:01 发布

阅读量200

点赞数

分类专栏：数据分析师学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/nonem101/article/details/100574198

版权

数据分析师学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

之前博主使用excel时，也就是使用excel简单的处理一些数据，并不知道excel还可以用来数据分析，像excel中的线性回归，就是数据分析功能的隐藏，文件中选项中加载项在左下角，管理中：excel加载项：转到，勾选分析数据库和规划求解加载项，然后数据选项中就出现了数据分析，数据分析选项卡中有许多可供选择，你可以使用对应的分析方法。

进行数据分析时：训练数据————>分类算法——————>分类规则；

分类算法包括决策树、贝叶斯、神经网络、K—近领（KNN）和支持向量机这几个基本算法。

评估的标准：

准确性（分类器正确预测未知数据能力）
速度（训练和使用分类器的时间消耗）
鲁棒性（分类器对噪声数据和缺失数据的处理能力）
可伸缩性（分类器对大量数据处理能力）
可解释性（容易理解解释的分类器规则）

决策树：

两种修剪方法：主要是使用预剪枝方法，预剪枝算法效率高，适用于大规模的数据，还有后剪枝方法。

特点：可处理高位数据，结果集易于理解，分类处理速度快，分类准确率高。

ID3算法：

定义：采用“信息增益”为度量来选择分裂属性。

熵：数据集中不确定性，突发性或随机性的程度变量。当一个数据集中的记录全部都属于同一类的时候，则没有不确定性，此时熵为0.

信息增益：按某个属性A把数据集S分裂，所得的信息增益等于数据集S的熵减去各子集的熵加权和。

缺点：不能做预剪枝，后剪枝，处理数值的能力不足。

广度优先算法：自底向上，生成候选集，然后提取频繁项集。算法Apriori Hybrid效率高于Aprior和Aprior Tid。

深度优先算法：利用模式增长方法。有FP—growth，Eclat和H-Mine。

支持度：项集在事务出现的概率。

频繁项集：满足最小支持度的项集。

关联项集：根据一个项集里面的物品可以推出另一个包含不同物品的项集，如{啤酒，面包}———>{牛奶}。

规则度量标准：

支持度（S）：两个项集在整个事务集中同时出翔的概率。
置信度（C）：在前项发生的情况下，由前项推出后项的概率。
提升度（L）：在含有前项的条件下后项发生的概率，与不包含前项这个条件下后项发生的概率对比。

设前项为X，后项为Y。

S=P(XUY)/P(L),

C=P(XUY)/P(X),

L=P(XUY)/P(X)P(Y)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘相关知识点2

之前博主使用excel时，也就是使用excel简单的处理一些数据，并不知道excel还可以用来数据分析，像excel中的线性回归，就是数据分析功能的隐藏，文件中选项中加载项在左下角，管理中：excel加载项：转到，勾选分析数据库和规划求解加载项，然后数据选项中就出现了数据分析，数据分析选项卡中有许多可供选择，你可以使用对应的分析方法。进行数据分析时：训练数据————>...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。