十大数据分析算法
1.C4.5(分类决策树)
决策树算法需要解决的两个主要问题:
1)先选择哪个属性,后选择哪个属性来进行分裂?2)什么时候树停止生长?
这里,C4.5算法是这样解决的:
1)用信息增益(熵差)率来选择属性分裂;2)构造树的过程中进行剪枝操作降低过拟合风险。
这里引出“信息熵”的概念。“熵”是对混乱程度的度量,越乱熵越大,是一个度量样本集合纯度最常用的指标。划分节点处到底用哪个属性的时候,希望节点处属性纯度大,也就是熵更小。
2.K-均值算法
3.SVM
4.Apriori算法
衡量事务之间的相关联程度
5.KNN算法
之前博客写过
6.PageRank