数据挖掘
海阔天空&沫语
这个作者很懒,什么都没留下…
展开
-
Example of Single Pass Clustering Technique
Suppose that we have the following set of documents and terms, and that we are interested in clustering the terms using the single pass method (note that the same method can beused to cluster the docu转载 2014-08-03 16:05:17 · 395 阅读 · 0 评论 -
关联规则算法Apriori的学习与实现
首先我们来看,什么是规则?规则形如”如果…那么…(If…Then…)”,前者为条件,后者为结果。关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系,根据所挖掘的关联关系,可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度:3%,置信度:40%] 支持度3%意味3%顾客同时购买牛奶和面包。置信度40转载 2014-09-26 10:05:57 · 598 阅读 · 0 评论 -
中文分词算法笔记
中文分词基本算法主要分类 基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表) 1、基于词典的方法(字符串匹配,机械分词方法) 定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。 按照扫描方向的不同:正向匹配和逆向匹配 按照长度的不同:最大匹配和最小匹配转载 2014-10-11 22:35:57 · 296 阅读 · 0 评论 -
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 在线演示:http://ansj.sdapp.cn/demo/seg.jsp 官网地址:http://www.ansj.org/ Github地址:https://github.com/ansjsun/ansj_seg 介绍一下Ansj转载 2015-04-25 21:17:30 · 517 阅读 · 0 评论 -
文本特征提取方法研究
一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处转载 2015-04-25 21:16:23 · 537 阅读 · 0 评论