数据挖掘相关知识点2

之前博主使用excel时,也就是使用excel简单的处理一些数据,并不知道excel还可以用来数据分析,像excel中的线性回归,就是数据分析功能的隐藏,文件中选项中加载项在左下角,管理中:excel加载项:转到,勾选分析数据库和规划求解加载项,然后数据选项中就出现了数据分析,数据分析选项卡中有许多可供选择,你可以使用对应的分析方法。

进行数据分析时:训练数据————>分类算法——————>分类规则;

分类算法包括决策树、贝叶斯、神经网络、K—近领(KNN)和支持向量机这几个基本算法。

评估的标准:

  1. 准确性(分类器正确预测未知数据能力)
  2. 速度(训练和使用分类器的时间消耗)
  3. 鲁棒性(分类器对噪声数据和缺失数据的处理能力)
  4. 可伸缩性(分类器对大量数据处理能力)
  5. 可解释性(容易理解解释的分类器规则)

决策树:

两种修剪方法:主要是使用预剪枝方法,预剪枝算法效率高,适用于大规模的数据,还有后剪枝方法。

特点:可处理高位数据,结果集易于理解,分类处理速度快,分类准确率高。

ID3算法:

定义:采用“信息增益”为度量来选择分裂属性。

熵:数据集中不确定性,突发性或随机性的程度变量。当一个数据集中的记录全部都属于同一类的时候,则没有不确定性,此时熵为0.

信息增益:按某个属性A把数据集S分裂,所得的信息增益等于数据集S的熵减去各子集的熵加权和。

缺点:不能做预剪枝,后剪枝,处理数值的能力不足。

 

广度优先算法:自底向上,生成候选集,然后提取频繁项集。算法Apriori Hybrid效率高于Aprior和Aprior Tid。

深度优先算法:利用模式增长方法。有FP—growth,Eclat和H-Mine。

支持度:项集在事务出现的概率。

频繁项集:满足最小支持度的项集。

关联项集:根据一个项集里面的物品可以推出另一个包含不同物品的项集,如{啤酒,面包}———>{牛奶}。

规则度量标准:

  1. 支持度(S):两个项集在整个事务集中同时出翔的概率。
  2. 置信度(C):在前项发生的情况下,由前项推出后项的概率。
  3. 提升度(L):在含有前项的条件下后项发生的概率,与不包含前项这个条件下后项发生的概率对比。

设前项为X,后项为Y。

S=P(XUY)/P(L),

C=P(XUY)/P(X),

L=P(XUY)/P(X)P(Y)

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值