博客专栏  >  综合   >  机器学习

机器学习

我在 GitHub 上创建了一个机器学习的 organization, 如果你对此感兴趣,欢迎私信或邮件我你的 GitHub 用户名,我会邀请你加入进来。

关注
7 已关注
7篇博文
  • 决策树之 C4.5 算法

    由于 C4.5 算法是建立在 ID3 算法基础之上的,所以在讲解 C4.5 的时候,会有很多与 ID3 重合的内容,这里就不过多冗余地说明了。本文旨在阐明 ID3 存在的问题,以及 C4.5 的改进方...

    2016-07-06 16:42
    3257
  • 决策树之 ID3 算法

    ID3 算法是构建决策树算法中一种非常重要的算法,可以说它是学习决策树算法的基础吧。比如,下一篇博客要说的 C4.5 决策树,就是基于 ID3 上的一个改进算法。还有 CART、随机森林算法,都是后面...

    2016-07-06 13:05
    3167
  • MapReduce 应用:TF-IDF 分布式实现

    本文要说的 TF-IDF 分布式实现,运用了很多之前 MapReduce 的核心知识点。算是 MapReduce 的一个小应用吧。

    2016-06-24 00:29
    4901
  • 数据挖掘:基于TF-IDF算法的数据集选取优化

    TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-ID...

    2015-11-17 13:51
    2788
  • 深入理解Aho-Corasick自动机算法

    Aho-Corasick automaton(后面心均以AC代替),该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一。AC自动机算法分为3步:构造一棵Trie树,构造失效指针和模式匹配过程...

    2015-10-24 13:04
    5559
  • Trie树进阶:Double-Array Trie原理及状态转移过程详解

    Trie树本身就是一个很迷人的数据结构,何况是其改进的方案。在本博客中我会从DAT(Double-Array Tire)的原理开始,并结合其源代码对DAT的状态转移过程进行解析。如果因此你能从我的博客...

    2015-10-22 15:54
    7107
  • 数据挖掘:基于朴素贝叶斯分类算法的文本分类实践

    如果你想对一个陌生的文本进行分类处理,例如新闻、游戏或是编程相关。那么贝叶斯分类算法应该正是你所要找的了。贝叶斯分类算法是统计学中的一种分类方法,它利用概率论中的贝叶斯公式进行扩展。下面我们就针对朴素...

    2015-09-17 22:59
    1741

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部