之前博主使用excel时,也就是使用excel简单的处理一些数据,并不知道excel还可以用来数据分析,像excel中的线性回归,就是数据分析功能的隐藏,文件中选项中加载项在左下角,管理中:excel加载项:转到,勾选分析数据库和规划求解加载项,然后数据选项中就出现了数据分析,数据分析选项卡中有许多可供选择,你可以使用对应的分析方法。
进行数据分析时:训练数据————>分类算法——————>分类规则;
分类算法包括决策树、贝叶斯、神经网络、K—近领(KNN)和支持向量机这几个基本算法。
评估的标准:
- 准确性(分类器正确预测未知数据能力)
- 速度(训练和使用分类器的时间消耗)
- 鲁棒性(分类器对噪声数据和缺失数据的处理能力)
- 可伸缩性(分类器对大量数据处理能力)
- 可解释性(容易理解解释的分类器规则)
决策树:
两种修剪方法:主要是使用预剪枝方法,预剪枝算法效率高,适用于大规模的数据,还有后剪枝方法。
特点:可处理高位数据,结果集易于理解,分类处理速度快,分类准确率高。
ID3算法:
定义:采用“信息增益”为度量来选择分裂属性。
熵:数据集中不确定性,突发性或随机性的程度变量。当一个数据集中的记录全部都属于同一类的时候,则没有不确定性,此时熵为0.
信息增益:按某个属性A把数据集S分裂,所得的信息增益等于数据集S的熵减去各子集的熵加权和。
缺点:不能做预剪枝,后剪枝,处理数值的能力不足。
广度优先算法:自底向上,生成候选集,然后提取频繁项集。算法Apriori Hybrid效率高于Aprior和Aprior Tid。
深度优先算法:利用模式增长方法。有FP—growth,Eclat和H-Mine。
支持度:项集在事务出现的概率。
频繁项集:满足最小支持度的项集。
关联项集:根据一个项集里面的物品可以推出另一个包含不同物品的项集,如{啤酒,面包}———>{牛奶}。
规则度量标准:
- 支持度(S):两个项集在整个事务集中同时出翔的概率。
- 置信度(C):在前项发生的情况下,由前项推出后项的概率。
- 提升度(L):在含有前项的条件下后项发生的概率,与不包含前项这个条件下后项发生的概率对比。
设前项为X,后项为Y。
S=P(XUY)/P(L),
C=P(XUY)/P(X),
L=P(XUY)/P(X)P(Y)