机器学习
我在 GitHub 上创建了一个机器学习的 organization, 如果你对此感兴趣,欢迎私信或邮件我你的 GitHub 用户名,我会邀请你加入进来。
Q-WHai
O ever youthful,O ever weeping.
展开
-
决策树之 C4.5 算法
由于 C4.5 算法是建立在 ID3 算法基础之上的,所以在讲解 C4.5 的时候,会有很多与 ID3 重合的内容,这里就不过多冗余地说明了。本文旨在阐明 ID3 存在的问题,以及 C4.5 的改进方案。原创 2016-07-06 16:42:54 · 10811 阅读 · 9 评论 -
决策树之 ID3 算法
ID3 算法是构建决策树算法中一种非常重要的算法,可以说它是学习决策树算法的基础吧。比如,下一篇博客要说的 C4.5 决策树,就是基于 ID3 上的一个改进算法。还有 CART、随机森林算法,都是后面要讲解的。原创 2016-07-06 13:05:54 · 14923 阅读 · 2 评论 -
数据挖掘:基于TF-IDF算法的数据集选取优化
前言: 此前在做一个关于文本分类的小调研。本人使用的是基于朴素贝叶斯的文本分类算法,关于朴素贝叶斯的文本分类更多的内容,请参见《数据挖掘:基于朴素贝叶斯分类算法的文本分类实践》. 不过在做朴素贝叶斯的时候,我遇到一个问题。因为贝叶斯的算法有一个阶段是关于数据训练的,这个用于训练的数据集是一个比较头疼的问题。要怎么选择这些数据集呢?人工手打上去吗?是不是有一点不太实际。下面,我就基于这一...原创 2015-11-17 13:51:46 · 7967 阅读 · 1 评论 -
Trie树进阶:Double-Array Trie原理及状态转移过程详解
Trie树本身就是一个很迷人的数据结构,何况是其改进的方案。在本博客中我会从DAT(Double-Array Tire)的原理开始,并结合其源代码对DAT的状态转移过程进行解析。如果因此你能从我的博客中有所收获或启发,It's my pleasure.原创 2015-10-22 15:54:53 · 23497 阅读 · 7 评论 -
数据挖掘:基于朴素贝叶斯分类算法的文本分类实践
如果你想对一个陌生的文本进行分类处理,例如新闻、游戏或是编程相关。那么贝叶斯分类算法应该正是你所要找的了。贝叶斯分类算法是统计学中的一种分类方法,它利用概率论中的贝叶斯公式进行扩展。下面我们就针对朴素贝叶斯分类算法,进行原理浅析和文本分类实践。原创 2015-09-17 22:59:12 · 6149 阅读 · 0 评论