数据挖掘
Q-WHai
O ever youthful,O ever weeping.
展开
-
网站分类前导:获取网站标题和描述及对相关信息进行分词处理
之前,笔者做过一些关于网络爬虫的东西。而且爬取的效果还可以。不过还有一些爬虫的博客没有完成,在后期会将其更新完成。而之前的爬虫只是对网页中的URL进行提取,我想做的效果是能对这些网页进行分类。而分类的前提是我们能够依据一些可信文本,对这些文本进行分词,再通过这些分出来的词再进行分类(如:贝叶斯分类器)。而本文就是对网页分类的前导学习——中文分词学习。原创 2015-09-15 10:20:36 · 3330 阅读 · 0 评论 -
决策树之 ID3 算法
ID3 算法是构建决策树算法中一种非常重要的算法,可以说它是学习决策树算法的基础吧。比如,下一篇博客要说的 C4.5 决策树,就是基于 ID3 上的一个改进算法。还有 CART、随机森林算法,都是后面要讲解的。原创 2016-07-06 13:05:54 · 14948 阅读 · 2 评论 -
决策树之 C4.5 算法
由于 C4.5 算法是建立在 ID3 算法基础之上的,所以在讲解 C4.5 的时候,会有很多与 ID3 重合的内容,这里就不过多冗余地说明了。本文旨在阐明 ID3 存在的问题,以及 C4.5 的改进方案。原创 2016-07-06 16:42:54 · 10831 阅读 · 9 评论 -
MapReduce 应用:TF-IDF 分布式实现
本文要说的 TF-IDF 分布式实现,运用了很多之前 MapReduce 的核心知识点。算是 MapReduce 的一个小应用吧。原创 2016-06-24 00:29:45 · 9599 阅读 · 3 评论 -
深入理解Aho-Corasick自动机算法
0.前言 我总是对那些具有状态转移过程的算法,心怀敬意。 例如:递归、递推、动规、DAT 以及现在要说的 AC 自动机算法。 数学真是优美! —— 致那些牛逼到不行的数学家们1.版权说明商业转载请联系作者获得授权,非商业转载请注明出处。本文作者:Q-WHai发表日期: 2015年...原创 2015-10-24 13:04:39 · 23632 阅读 · 7 评论 -
数据挖掘:基于朴素贝叶斯分类算法的文本分类实践
如果你想对一个陌生的文本进行分类处理,例如新闻、游戏或是编程相关。那么贝叶斯分类算法应该正是你所要找的了。贝叶斯分类算法是统计学中的一种分类方法,它利用概率论中的贝叶斯公式进行扩展。下面我们就针对朴素贝叶斯分类算法,进行原理浅析和文本分类实践。原创 2015-09-17 22:59:12 · 6160 阅读 · 0 评论 -
数据挖掘:基于TF-IDF算法的数据集选取优化
前言: 此前在做一个关于文本分类的小调研。本人使用的是基于朴素贝叶斯的文本分类算法,关于朴素贝叶斯的文本分类更多的内容,请参见《数据挖掘:基于朴素贝叶斯分类算法的文本分类实践》. 不过在做朴素贝叶斯的时候,我遇到一个问题。因为贝叶斯的算法有一个阶段是关于数据训练的,这个用于训练的数据集是一个比较头疼的问题。要怎么选择这些数据集呢?人工手打上去吗?是不是有一点不太实际。下面,我就基于这一...原创 2015-11-17 13:51:46 · 7985 阅读 · 1 评论 -
算法:两种对拼音进行智能切分的方法
前言: 最近在做一个调研的工作。研究的对象是搜索引擎中关键词的纠错功能。就像百度中搜索某一个关键词“ABC”,它会在搜索的结果中对此关键词进行纠正,然后会显示:你要找的是不是“ABD”。这种之类的。这个是背景,不过本文中还没不是介绍这一功能,这一功能的说明会在我的调研结束之后写在我的博客中。 本文要介绍的是,对拼音的拼写进行智能切分。比如:qinshimingyuezhijunlint...原创 2015-10-13 08:48:34 · 10092 阅读 · 3 评论 -
大数据算法:对5亿数据进行排序
0.前言:在大数据研究的路上,我们总要对一些很大的数据进行各种各样的操作。比如说对数据排序,比如说对数据统计,比如说对数据计算。而在大量的数据面前,我们总是束手无策,因为我们无法在限定时间的情况下,在效率上做到让人满意,也无法在限定空间的情况下,能够快速解决问题。可能我们在一些日常的开发过程中,没有遇到过这些问题。不过,现在是时候来考虑一下这样的问题了。因为,现在正值大数据的时代。在本文中...原创 2015-10-19 23:32:03 · 44628 阅读 · 8 评论 -
Trie树进阶:Double-Array Trie原理及状态转移过程详解
Trie树本身就是一个很迷人的数据结构,何况是其改进的方案。在本博客中我会从DAT(Double-Array Tire)的原理开始,并结合其源代码对DAT的状态转移过程进行解析。如果因此你能从我的博客中有所收获或启发,It's my pleasure.原创 2015-10-22 15:54:53 · 23521 阅读 · 7 评论