聚类+偏差检测
常见算法
- 决策树:if else
- 聚类:特征数据:非监督无便签数据自动分类
- 时间序列
- 朴素贝叶斯:基于概率:类别特征组合形成
- 支持向量机:样本分开,拓展模型泛化性能
- 关联规则:非监督学习,子集与子集之间的关系
- 神经网络:演化为深度学习,多个简单地模块形成负责功能
- 隐马尔科夫模型:状态之间独立变化,推算变化之间的关系
- 回归
- 遗传算法:仿生算法,模拟生物适应环境或适应目标函数的保底算法
- K-NH:简单高效 分类方式
- 文本挖掘:自然然语言处理的集成
高端算法:
随机场、深度学习模型等
tools
- IBM:intelligent miner
- spss
- sas
- oracle darwin
- weka
- matlab
- python
- R
- mahout
- …
决策树
归纳式的算法,由节点和边构成;逼近离散
ifelse模式
贪心法:自上而下,在每个节点最好的分类属性
常见算法:CART、ID3、C4.5、ASSISTANT
火商:混乱度
H ( X ) = ∑ i = 1 n p ( x i ) I ( X i ) = − ∑ i = 1 n p ( x i ) l o g b p ( x i ) H(X)= \sum_{ i = 1 } ^n p(x_i)I(X_i)=-\sum_{i=1}^np(x_i)log_bp(x_i) H(X)=i=1∑n