research
iteye_7642
这个作者很懒,什么都没留下…
展开
-
结构化、半结构化以及非结构化数据
存储在数据库中的数据是结构化数据,因为它是以严格的格式表示的。例如,在关系数据库表中的每条记录,例如《数据库系统基础:初级篇》中图5.6的EMPLOYEE表,该表中的所有记录都遵循同一格式。对于结构化数据,为了创建数据库模式,一般都应用如《数据库系统基础:初级篇》中第3、第4、第7、第10和第11章中所描述的那些技术来详细设计数据库。然后DBMS将进行检查以确保所有数据遵循模式中所指定的结构和约束...原创 2009-11-06 09:44:52 · 427 阅读 · 0 评论 -
HTML Parser
http://htmlparser.sourceforge.net/[color=blue]HTML Parser is a Java library used to parse HTML in either a linear or nested fashion. Primarily used for transformation or extraction, [/color]it fea...原创 2009-09-22 15:08:00 · 131 阅读 · 0 评论 -
HtmlParser初步研究
转自:http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html这两天准备做一些网站编程的工作,于是对HtmlParse小研究了一下,目的是快速入手,而不是深入研究,做了一下整理,和大家共同讨论一下。 一,数据组织分析:HtmlParser主要靠Node、AbstractNode和Tag来表达Html,因为Rem...原创 2009-09-22 15:04:43 · 97 阅读 · 0 评论 -
数据集整理
可选用的数据集主要包括Cora、Citeseer、DBLP三类。DBLP数据集用XML描述,字段信息包括:author、title、pages、year、booktitle、url、crossref、publisher、ee、cdrom、isbn、cite_label等。其中作者名属性信息的格式是统一的,处理比较方便。目前,DBLP对作者重名问题的处理已经有不错的效果。例如:输入一作者名“...2009-09-08 11:30:57 · 1251 阅读 · 0 评论 -
解析Restful Web Service
摘 要:本文展示了Http协议的强大能力,如何定义什么是Restful Web Service架构以及以当今RPC式Web服务的对比,并解析了Restful Web Service架构的四个特征:可寻址性、无状态性、连通性和统一接口。关键字:HTTP;URL;REST;Web服务 中图分类号:TP393.04 文献标识码:AA...原创 2009-07-29 14:55:40 · 175 阅读 · 0 评论 -
Weka下LibSVM (WLSVM)的配置
引用:http://www.cs.iastate.edu/~yasser/wlsvm/Weka安装完成之后就可以在分类器里面选择libsvm,但是会提示找不到model。这是因为weka并没有直接把svm的包整合进来(可能考虑到升级等情况),这时只需设置一下就可以像其他分类器一样使用libsvm了。(1)下载WLSVM包,上面的引用地址页面里可以找到下载链接,把libsvm...原创 2010-01-26 14:58:50 · 293 阅读 · 0 评论 -
Weka系列转载之入门教程
http://blog.chinaunix.net/u2/62093/showart_485477.html1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主...原创 2010-01-25 10:04:45 · 446 阅读 · 0 评论 -
Weka系列转载之属性选择
在这一节我们看看属性选择。在数据挖掘的研究中,通常要通过距离来计算样本之间的距离,而样本距离是通过属性值来计算的。我们知道对于不同的属性,它们在样本空间的权重是不一样的,即它们与类别的关联度是不同的,因此有必要筛选一些属性或者对各个属性赋一定的权重。这样属性选择的方法就应运而生了。在属性选择方面InfoGain和GainRatio的比较常见,也是最通俗易懂的方法。它们与Decision T...原创 2010-01-25 09:49:50 · 296 阅读 · 0 评论 -
Weka系列转载之聚类
上次我介绍了分类器的使用方法,这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与分类算法(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)这个我会在后面的文章中重点介绍。所谓无监督学习就是在预先不知道样本类别的情况下,由聚类算法来判别样本的类别...原创 2010-01-25 09:45:30 · 254 阅读 · 0 评论 -
Weka系列转载之初体验
从前年开始使用weka最数据挖掘方面的研究,到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结,我也想整理一下。因为网上的资料实在是太少,记得刚接手的时候,真是硬着头皮看代码。不过到现在看来,也积累了很多的代码了。希望能够在这里跟大家分享一下学习weka的乐趣与经验。Weka是来之新西兰怀卡托大学的一款开源软件,主要是数据挖掘方面的一些算法的集合。这款软件大概是当前数据挖...原创 2010-01-25 09:42:13 · 133 阅读 · 0 评论 -
citeseer数据集下载地址
citeseer数据集的下载地址:http://www.cs.umd.edu/~sen/lbc-proj/data/citeseer.tgz看了这么长时间的论文,马上就要开题了,把之前看过的论文中有用的东西总结总结。鉴于临近毕业,实验室比较吵杂,严重影响工作,还是先从实验数据集整理吧,hoho~...2009-06-23 10:25:20 · 3759 阅读 · 2 评论 -
cora数据集
转自:http://blog.sina.com.cn/s/blog_4c98b96001000boc.html --苯苯的小田园真是找的很辛苦,唉!记下来吧.感谢论文Object Identication withAttribute-Mediated Dependences提供了cora dataset 的来源:http://www.cs.umass.edu/~mccallum/d...原创 2009-06-23 09:55:23 · 2276 阅读 · 0 评论 -
HttpClient小试牛刀
做实验时遇到问题ACM的网页解析时,不能用httpClient,会出现连接超时;而SpringerLink的网页解析,必须用httpClient才行。SpringerLink涉及到自动转发问题,必须用HttpClient实现。...原创 2009-12-16 19:34:49 · 90 阅读 · 0 评论 -
关于DOI码与科学文献
那些刚出版的,还没有确定期刊号的那种新文献,通过DOI码,能够直接查找你所需要的文献。http://dx.doi.org/,只需要输入你想查找的DOI码,就可以直接连接到该文全文! DOI是"Digital Object Identifier"的简写,用来标识在数字环境中的内容对象。 DOI可以用来揭示有关该数字对象的一些信息 包括从INTERNET哪里可以找到它等。 随着时间推...原创 2009-10-10 09:29:23 · 1142 阅读 · 0 评论