数据挖掘
Kallyn
这个作者很懒,什么都没留下…
展开
-
各种分类算法比较
1决策树(Decision Trees)的优缺点决策树的优点:1)决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。2)决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。3)在相对短的时间内能够对大型数据源做出可行且效果良好的结果。决策树的缺点:1)对于那些各类别样本数量不一致的数据转载 2016-03-21 21:17:56 · 789 阅读 · 0 评论 -
中文分词算法
中文分词算法现在一般分为三类:基于字符串匹配,基于理解,基于统计的分词。基于字符串匹配分词:机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配;最大长度匹配和最小长度匹配;单纯分词和分词与标注过程相结合的一体化方法。所以常用的有:正向最大匹配,逆向最大匹配,最少切分法。。。实际应用中,将机械分词作为初分手段,利用语言信息提高切分准确率。优先识别具有明转载 2016-03-22 09:28:01 · 435 阅读 · 0 评论 -
K-means分类
K-means聚类算法 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚转载 2016-03-22 09:58:37 · 5826 阅读 · 0 评论 -
Precision ROC Recall
Precision 反映了分类器预测正例的准确程度。其补数就是误检率。recall也就是true positive rate (tpr),反映了分类器对正例的覆盖能力。其补数就是漏检率。ROC曲线的横轴和纵轴分别是false positive rate 和true positive rate,可以理解为将负例分为正例的概率,以及将正例分为正例的概率。注意,这里的分母都是实际的正例/原创 2016-08-01 16:53:17 · 333 阅读 · 0 评论