Data Mining
文章平均质量分 92
fy2462
这个作者很懒,什么都没留下…
展开
-
文本分类入门
来源 http://www.blogjava.net/zhenandaci/category/31868.html?Show=All文本分类入 门(一)文本分类问题的定义文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的SVM算法及其改进。 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文转载 2014-06-17 14:29:38 · 1334 阅读 · 0 评论 -
决策树C4.5分类算法的C++实现
公司布置了一个任务让写一个决策树,以前并未接触数据挖掘的东西,但作为一个数据挖掘最基本的知识点,还是应该有所理解的。 程序的源码可以点击这里进行下载,下面简要介绍一下决策树以及相关算法概念。 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的原创 2014-06-17 14:38:58 · 7388 阅读 · 9 评论 -
强大的矩阵奇异值分解(SVD)及其应用
在工程实践中,经常要对大矩阵进行计算,除了使用分布式处理方法以外,就是通过理论方法,对矩阵降维。一下文章,我在学习SVD时发现的好文,推荐给大家,原始地址为:http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html原文如下:前言: 上一次写了关于PCA与LDA的文章,PCA的转载 2014-06-17 15:28:41 · 797 阅读 · 0 评论 -
基于余弦距离的的文本相似度挖掘(C++)
本文实现了根据余弦距离的文本相似度的C++实现算法,如要要点如下:1、对1998年1月的人民日报所有文章进行预处理(其中文件已经分化好分词),然后进行去噪声、去停用词等操作。2、对处理好的数据进行余弦计算,并存储为相应的数据结构。3、输出前N篇最相似的文章下面介绍Statistics.cpp,对预处理文件进行统计词频。原创 2014-06-17 15:40:28 · 3448 阅读 · 1 评论 -
SVM算法入门
转自:http://www.blogjava.net/zhenandaci/category/31868.html(一)SVM的简介支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习转载 2014-06-17 14:31:12 · 627 阅读 · 0 评论