数据挖掘
文章平均质量分 69
iteye_8075
这个作者很懒,什么都没留下…
展开
-
[转]基于朴素贝叶斯分类器的文本分类算法(上)
写道转载请保留作者信息: 作者:phinecos(洞庭散人) Blog:http://phinecos.cnblogs.com/ Email:[email protected] Preface 本文缘起于最近在读的一本书-- Tom M.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为两个部分,第一部分将...原创 2011-07-02 22:16:38 · 221 阅读 · 0 评论 -
[转]基于朴素贝叶斯分类器的文本分类算法(下)
源代码下载:NaviveBayesClassify.rar Preface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类算法(上)》一文中简单介绍了贝叶斯学习的基本理论,这一篇将展示如何将该理论运用到中文文...原创 2011-07-02 22:18:21 · 114 阅读 · 0 评论 -
k-Nearest Neighbor algorithm
写道 [KNN算法的决策过程]KNN算法的决策过程k-Nearest Neighbor algorithm 右图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 K最近邻(k-Nearest...原创 2011-07-09 15:12:25 · 170 阅读 · 0 评论 -
VC维(Vapnik–Chervonenkis dimension)
1、简介 vc理论(Vapnik–Chervonenkis theory )是由 Vladimir Vapnik 和 Alexey Chervonenkis发明的。该理论试图从统计学的角度解释学习的过程。而VC维是VC理论中一个很重要的部分。 2、定义 定义:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的 种形式分开,则称函...原创 2011-09-01 15:00:50 · 2049 阅读 · 0 评论 -
结构风险最小化(Structural Risk Minimization, SRM)
1、定义 统计学习理论提出了一种新的策略,即把函数集构造为一个函数子集序列,使各个子集按照VC维的大小排列;在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得实际风险的最小。这种思想称作结构风险最小化(Structural Risk Minimization),即SRM准则。 2、经验风险与真实风险的关系 统计学习理论系统地研究了对于各种类型的函数集,经验风...原创 2011-09-01 15:42:52 · 2143 阅读 · 0 评论 -
文本分类入门_特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计...原创 2011-09-04 20:11:57 · 269 阅读 · 0 评论 -
Berkeley DB Java Edition使用说明
在使用Berkeley DB c++ Edition的时候发现有些接口不是太了解,发现网上好多都是Java版本的信息,对付发现他们的命名基本相同。所以转载一下以便以后查找。一、 简介 Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。 l 能够高效率的处理1到1百万条记录,制约JE数据库的往往是硬件系统,而不是JE本身。 l...原创 2011-10-17 19:07:04 · 103 阅读 · 0 评论