数据挖掘
maqianmaqian
这个作者很懒,什么都没留下…
展开
-
分类 和 聚类
简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。简单地说,聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 区别是,分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。 ...原创 2011-01-24 18:42:46 · 238 阅读 · 0 评论 -
TF-IDF解释
我们知道,短语“原子能的应用”可以分成三个关键词:原子能、的、应用。根据我们的直觉,我们知道,包含这三个词多的网页应该比包含它们少的网页相关。当然,这个办法有一个明显的漏洞,就是长的网页比短的网页占便宜,因为长的网页总的来讲包含的关键词要多些。因此我们需要根据网页的长度,对关键词的次数进行归一化,也就是用关键词的次数除以网页的总字数。我们把这个商称为“关键词的频率”,或者“单文本词汇频率”(Ter...原创 2011-03-14 17:10:18 · 73 阅读 · 0 评论 -
focus聚类研究系列一-----熟悉现有项目基础(站在巨人的肩膀上)
从现在开始,开始我真正的研究计划:聚类获取有价值的信息。今天开始详细了解了已有的资源和项目代码,包含中文分词,文档向量化,现有的KA+K-MEANS聚类算法。但是据观察,聚类效果上不是很满意,主要是类簇的关键字抽取不够准确,特征选择尚未考虑,聚类精度需要提高。明天开始到下周末,研究1.ka+k-means,其他k-means方法,找出系统不足点2.研究特征选择方法,提高聚类前数据的质量 由...原创 2011-03-14 17:22:33 · 77 阅读 · 0 评论 -
文本自动摘要网址收藏
http://www.insun.hit.edu.cn/news/view_cn.asp?id=195 http://blog.sina.com.cn/s/blog_5564eb640100gcvx.html http://www.cnindex.fudan.edu.cn/zgsy/2003n2/lunwenben.htm http://www.ninemax.com/yj...原创 2011-03-16 14:59:10 · 154 阅读 · 0 评论 -
文本自动摘要的方法研究
文本自动摘要经历几十年的研究,主要采用以下四种方法:基于统计的自动摘要、基于理解的自动摘要、基于信息抽取的自动摘要和基于结构的自动摘要。4.1基于统计的自动摘要基于统计的自动摘要也称为自动摘录,是将文本视为句子的线性序列,将句子视为词的线性序列。包括以下步骤:(1)原始文本处理:按照计算机能够识别的形式输入文本信息,比如:键盘输入、手写录入、文本扫描、图形识别、语音识别...原创 2011-03-16 14:59:55 · 260 阅读 · 0 评论 -
推荐系统:关联规则(3) —— FP-Growth 算法
在 1994 年 Rakesh Agrawal 提出了 Apriori 算法之后,关联规则挖掘技术的可用性得到了很大的提高。而且因为关联规则挖掘与生俱来的商业意义,使得它迅速成为了一个非常热门的研究领域,新的算法也不断地涌现出来。这其中,实用性比较强的一个算法,是由韩家玮教授提出的 FP-Growth 算法。FP-Growth 算法在 2000 年发表的这个 paper 《Mining Frequ...原创 2011-03-17 13:19:56 · 461 阅读 · 0 评论 -
推荐系统:关联规则(2)
Apriori Algorithm 是关联规则领域里最具影响力的基础算法。它是由 Rakesh Agrawal 在 1994 年提出的,详细的介绍在这里《Fast Algorithms for Mining Association Rules》。十几年过去了,不少学者围绕着 Apriori 进行了诸多改良。但与 1994 年相比,目前基于互联网的应用,数据量大了几十倍甚至是几百倍,因此,基于 Ap...原创 2011-03-17 13:23:35 · 125 阅读 · 0 评论 -
推荐系统:关联规则(1)
说到推荐系统,就不能不说关联规则。基于关联规则的推荐,是入门级的推荐技术实现,也是目前应用最广泛的一种推荐形式。就拿刚上线的“蚂蚁”来说吧,打开《引爆流行》的页面,稍微滚动两下鼠标,你就可以看到这个了——“喜欢此宝贝的会员还喜欢”。豆瓣上也有类似的形式,还看《引爆流行》,豆瓣的是——“喜欢引爆流行的人也喜欢”。是不是很像?但别被形式迷惑了,这两个用的是完全不同的技术实现。豆瓣的之前我说过了,他是 ...原创 2011-03-17 13:24:58 · 318 阅读 · 0 评论 -
weka入门教程
1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处...原创 2011-03-28 15:42:25 · 82 阅读 · 0 评论 -
作为java的一个库来使用wvtool
该WVTool可作为一个独立的Java库或RapidMiner环境的一个插件来使用。在这里,我们将主要讨论WVTool作为一个java库来使用是如何实现的。1.1 安装 作为Java库使用WVTool,首先从SourceForge上WVTool/ homepage1上下载wvtool包 ,解压缩档案,并把wvtool.jar文件和所有的jar文件放置到lib子目录中。要使WVTool能应用...原创 2011-03-28 20:41:32 · 112 阅读 · 0 评论 -
查全率[召回率]与精度[查准率] 之辨析
查全率[召回率]与精度[查准率] 之辨析:召回率(recall rate)和精度(precision)定义: 从一个大规模数据集合中检索文档的时,可把文档分成四组 -系统检索到的相关文档(A)- 系统检索到的不相关文档(B)- 相关但是系统没有检索到的文档(C)- 相关但是被系统检索到的文档(D) 相关不相关检索到...原创 2011-03-14 16:41:12 · 123 阅读 · 0 评论 -
使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)...
一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色...原创 2011-03-09 16:35:09 · 196 阅读 · 0 评论 -
主要分类方法介绍
主要分类方法介绍解决分类问题的方法很多[40-42] ,单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。(1)决策树决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中推理出以决策树表示的分...原创 2011-01-25 23:40:13 · 679 阅读 · 0 评论 -
数据挖掘能做什么
数据挖掘不仅能对过去的数据进行查询和遍历,并且能够对将来的趋势和行为进行预测,并自动探测以前未发现的模式,从而很好地支持人们的决策。被挖掘出来的信息,能够用于信息管理、查询处理、决策支持、过程控制以及许多其它应用。数据挖掘按其功能划分主要包括以下几类: (1) 分类 分类是数据挖掘中应用的最多的方法。分类是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,一般...原创 2011-01-25 23:46:19 · 203 阅读 · 0 评论 -
数据挖掘中分类算法总结
数据仓库,数据库或者其它信息库中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识。分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势的模型。分类方法(Classification)用于预测数据对象的离散类别(Categorical Label);预测方法(Prediction )用于预测数据对象的连续取值。 分类技术在很多领域都有应用,例如可以通过客...原创 2011-01-25 23:54:32 · 634 阅读 · 0 评论 -
预测型挖掘
预测型挖掘(转)5月份,我又有一个新的挖掘任务,就是根据历史销售记录来分析将来的销售情况。所以需要预先研究一下这个方面的挖掘,以下是我的学习笔记。 预测型知识挖掘: 顾名思义就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。 从上面一句话中的历史,当前,未来三个关键字,我们可以看出时间概念在这次挖掘中将会起到非常重要的作用。 从预测的主要功能上来看,主要是对未来数据的分类和趋势的输出。...原创 2011-01-26 00:06:55 · 171 阅读 · 0 评论 -
ictclas 相关的中文分词介绍
转载自: http://percyboy.cnblogs.com/中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。从 ICTCLAS Free...原创 2011-03-09 10:46:53 · 284 阅读 · 0 评论 -
ICTCLAS 中科院分词系统
中科院分词系统概述这几天看完了中科院分词程序的代码,现在来做一个概述,并对一些关键的数据结构作出解释〇、总体流程考虑输入的一句话,sSentence="张华平欢迎您"总体流程:一、分词 "张/华/平/欢迎/您"二、posTagging "张/q 华/j 平/j 欢迎/v 您/r"三、NE识别:人名识别,音译名识别,地名识别 "张/q 华/j 平/j 欢迎/v 您/r" ...原创 2011-03-09 11:48:16 · 230 阅读 · 0 评论 -
ICTCLAS 汉语词性标注集
ICTCLAS 汉语词性标注集汉语文本词性标注标记集Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。a 形容词 取英语形容词adjective的第1个字母。ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。b 区别词 取汉字“别”的声母。c 连词 取英语连词conjunction的第1个字...原创 2011-03-09 11:51:34 · 332 阅读 · 0 评论 -
根据关键词提取文本摘要
问题描述根据一组关键词,在一段文本中找出一段话作为文本的摘要,摘要有指定长度摘要中要尽可能多的包含不同的关键词在不同关键词一样多的情况下,包含关键词总数比较多的优先级高在以上条件都相同的情况下,出现在文本前面的段落优先基本思路找到各个关键词出现的位置,并记录下来统计在指定的长度范围内的两个关键词之...原创 2011-03-09 16:01:34 · 533 阅读 · 0 评论 -
推荐系统在视频网站中的应用
推荐系统在视频网站中的应用随着互联网特别是社会化网络的快速发展,我们正处于信息过载的时代。用户面对过量的信息很难找到自己真正感兴趣的内容,而内容提供商也很难把优质的内容准确推送给感兴趣的用户。推荐系统被认为是解决这些问题的有效方法,它对用户的历史行为进行挖掘,对用户兴趣进行建模,并对用户未来的行为进行预测,从而建立了用户和内容的关系。视频网站同样也面临着信息过载的问题,比如YouTube目...原创 2012-02-04 11:56:20 · 224 阅读 · 0 评论