特征化
描述
根据目标类数据的特征或特性进行汇总。
例子
汇总各班男生身高高于175cm的爱好、身体体质等情况。
区分
描述
相同或者不同类对象同一“现象”进行比较分析得出想要的结论。
例子
今年华东地区为啥橘子比苹果买的好,分析今年的橘子比苹果的优势大?人们的消费水平变化了?人们的吃水果的观念变化了?
频繁模式、关联和相关性分析
频繁模式:数据中频繁出现的模式,存在多种类型,包括频繁项集、频繁子序列、频繁子结构。
频繁项集:一般指频繁地事务数据集中在一起出现的不同类对象集合,如超市许多顾客一起频繁购买的是奶粉和尿不湿。
频繁子序列:如顾客倾向于先购买便携机,再购买数码相机,然后再购买内存卡。
频繁子结构:可能涉及不同的结构形式如列表、图、树等,如果一个子结构频繁出现则称它为频繁子结构。
挖掘频繁模式导致发现数据中有趣的关联和相关性。
分类
描述
它找出描述和区分数据类或概念的模型,以便能够使用模型*预测*类标号未知的对象的类标号。
对已发生过的事物分析得出结论用于推测类似新事物得出”预测”。
导出模型就需要分类规则:if-then 规则、决策树(类似于流程)、数学公式或者神经网络。
例子
超市商品售卖情况分为好、中、差三类,你想根据商品特性如价格、产地、品牌、种类来为这三类导出分类模型。
回归
描述
它找出某一情况同一影响属性影响程度变化的连续”函数“。
例子
想知道苹果在不同价格的销量。
分类与回归的区别
分类是大概的区分数据,数据值不需要连续主要目的是得到分类模型去对”新事物“进行归类,而回归力求得到一个函数,去预测属性值达到新的值时结果值是多少。
回归偏向于数据值,分类偏向于归类。
聚类
描述
对象根据最大化类内相似性、最小类间相似性的原则进行聚类和分组。
例子
人口集中分布图。
离群距点分析
数据集中可能包含一些数据对象,它与数据的一般行为和模型不一致~异常挖掘。
异常挖掘也是有意义的比如就可以通过数据分析及时发现异常,及时预防,避免没必要的情况。