Data mining
文章平均质量分 69
autofei
这个作者很懒,什么都没留下…
展开
-
Get Term frequency in Lucene using Zend Framework
I use Zend Framework to provide a PHP version Lucene. Currently, Zned should be the best PHP wrapper for Java Lucene.Create a Zend_Search_Lucene, using the method termFreqs to get th原创 2009-10-12 07:53:00 · 987 阅读 · 0 评论 -
什么是XML
主要参考了wikipedia,也包含了一些个人的经验。“XML (Extensible Markup Language) is a set of rules for encoding documents electronically.” Or "XML is a markup language for documents containing structured informa原创 2009-10-12 23:32:00 · 985 阅读 · 0 评论 -
如何从XML文件提取schema
原文地址:http://www.dotkam.com/2008/05/28/generate-xsd-from-xml/ 这里并没有全部翻译,参考了我的实践,选取了核心的一些步骤。 这里使用了一个叫做trang的软件,从这里下载 here ,目前的版本“trang-20030619.zip” (现在时2009年了,似乎没有发现更新)解压缩这个zip文件,随便翻译 2009-10-29 22:46:00 · 3165 阅读 · 0 评论 -
什么是信息集成(Information Integration)
今天小组讨论的时候,聊到了信息集成,Information Integration。但是到底什么是信息集成,搜索了一下居然发现连wikipedia也只有一个很简单的页面,相对于数据挖掘(data mining)已经形成一门学科而言,信息集成还处在一个成型的阶段吧。原创 2010-08-06 11:46:00 · 2743 阅读 · 0 评论 -
Cloudera’s Distribution for Apache Hadoop
很不错的一个增强版本,A 100% Apache licensed, free, stable distribution offering RPM, Debian, AWS and automatic configuration options。而且还有Ubuntu虚拟机,直接就开始编码了。原创 2011-02-10 08:45:00 · 2237 阅读 · 0 评论