搜索
文章平均质量分 69
fancyerII
这个作者很懒,什么都没留下…
展开
-
image search engine
去google搜了一下image search的文章,好像不是很多。看来一下wiki的文章 http://en.wikipedia.org/wiki/Image_searchgoogle的做法是通过图片的文件名,我猜可能是里的zzz就是文件名;指向图片的链接的文字;以及图片附近的文字来作为图片的关键字。另外还看到有人把整个网页的文章都作为图片的特征的,这个做法没啥意义,可能做页面分析后把相关的原创 2009-01-10 00:45:00 · 722 阅读 · 0 评论 -
Lucene 4 和 Solr 4 学习笔记(1)
从去年学习和使用Lucene+Solr到现在,也一年多了,从中学到了很多的东西。当时是基于lucene2.9.1和solr1.4.0学习和做一些改进的工作。那时Solr和Lucene比还是非常不成熟的项目,不过现在不同了,最新Solr代码已经和Lucene合并成一个开发分支(http://svn.apache.org/repos/asf/lucene/dev/trunk/),S原创 2011-06-10 00:36:00 · 3880 阅读 · 0 评论 -
Lucene 4 和 Solr 4 学习笔记(2)
现在先让我们把Lucene和Solr的开发环境搭建起来,建立简单的索引,并了解怎么参与Solr的使用和开发(提交一个bug或者尝试新的patch都可以算对solr的contribution)。 首先讲一下我的配置方法,然后翻译一下solr的wiki文章“How to Contribute to Solr”。 第一步是获取源代码。 一种方法是从s原创 2011-06-11 23:31:00 · 9181 阅读 · 2 评论 -
LingPipe学习: Spelling Correction(1)
LingPipe Spell Correction Spell Suggestion Natural Language Processing原创 2011-04-10 21:34:00 · 6968 阅读 · 4 评论 -
XULRunner with Java: JavaXPCOM Tutorial 3
6 加载页面的W3C DOM访问6.1 mozdom4java库 访问W3C DOM树比访问Mozilla的DOM树要好,因为它是一个动态访问HTML和XML的DOM树的标准。为了实现这个,我们使用从Mozilla DOM到W3C DOM的java Bridge。有一个叫做mozdom4java的项目http://mozdom4java.mozdev.org/index.ht翻译 2010-02-09 16:09:00 · 2431 阅读 · 0 评论 -
XULRunner with Java: JavaXPCOM Tutorial 2
4 在java代码里嵌入Firefox3 现在可以去用一下有用的例子了。首先我们在一个java程序里使用SWT来嵌入一个Mozilla浏览器。现在,我们可以使用org.eclipse.swt.browser.Browser类来实例化:browser = new Browser(shell, SWT.MOZILLA); 在这之前,我们需要使用ATF项目,以及一下ATF插件。非常翻译 2010-02-09 15:59:00 · 4614 阅读 · 3 评论 -
XULRunner with Java: JavaXPCOM Tutorial 0
LADyR是西班牙一个实验室有个web extraction的项目 http://ladyr.es/index.php?id=75 当然这个项目还没出来,不过里面有个介绍用java嵌入浏览器的教程(http://ladyr.es/wiki/wiki/XPCOMGuide)很不错。所以把这篇文章翻译一下,顺便说说自己学习这篇文章值得注意的地方。说明一下我使用的操作系统是windows翻译 2010-02-09 15:52:00 · 1208 阅读 · 0 评论 -
XULRunner with Java: JavaXPCOM Tutorial 1
这篇教程更新于2008年夏天,用来集成SWT和XULRunner来在SWT里显示一个浏览器。要想获得更多信息,请参考http://www.eclipse.org/swt/faq.php#whatisbrowser1,简介 这篇教程有两个目的。首先,我们能学到一些XPCOM的概念和怎么通过JavaXPCOM来在java里使用它。其次,我们学到怎么在java程序里嵌翻译 2010-02-09 15:54:00 · 4505 阅读 · 1 评论 -
XULRunner with Java: JavaXPCOM Tutorial 5
7.3 点击Element和填写表单 我们可以安全的加载页面,抽取信息,但是有时浏览网页是需要填写表单并提交或者点击某个元素来触发onclick以便执行一段JavaScript代码。 嗯,要想点击一个element需要获得这个element(前面的xpathNodes也许可以帮我们做到这点),如果是input element,我们需要调用它的subm翻译 2010-02-09 16:22:00 · 1946 阅读 · 2 评论 -
XULRunner with Java: JavaXPCOM Tutorial 4
7. 用JavaXPCOM来自动浏览网页 在这一节里我们将解决一些自动浏览网页中的一些问题,尝试把一下通用的任务抽象成人类可读的方法,因此你可以轻易的阅读代码并知道它的功能。我们将构建一个Web Browser来加载网页,点击按钮或者超链接,使用XPath来抽取一下有用的信息。在每一个小节里面,我们都将在我们的浏览器里增加新的功能,因此在最后,我们将有一个Web Brows翻译 2010-02-09 16:12:00 · 2234 阅读 · 0 评论 -
使用JRex来获取经过浏览器渲染的HTML
http://www.benjysbrain.com/misc/Render/index.html 我最近做一个网页数据挖掘的项目,这个项目在网络上寻找特定类型的图片。我过去使用HTML Parser来解析HTML并寻找IMG和OBJECT标签(tag)。但有时候,我发现使用原始的HTML并不合适。特别是img的src属性是用JavaScript运行时产生的:翻译 2009-05-15 23:58:00 · 6038 阅读 · 1 评论 -
lucene的两个小问题
1,RangeQuery 如果我们要查询某个范围的文档,最先想到的可能就是它。 比如我们要查询的field是时间,使用字符串存储 RangeQuery rQuery=new RangeQuery(new Term("date","2000-01-01"),new Term("date","2009-01-01"),true); 结果出现Too Many Clauses的异常,为什么原创 2009-04-03 10:02:00 · 843 阅读 · 0 评论 -
Lucene 4 和 Solr 4 学习笔记(3)
当初说要写写lucene和solr的学习笔记,写了两个后就懒得写了。最近想做个lucene和solr的中文学习网站,翻译一些lucene和solr的英文资料,并提供一个中文的交流学习平台。所以想把这个系列继续下去。 言归正传,上面说到我们的目标是学习和修改lucene/solr的源代码。不过如果我们从没有用过,那是不可能读懂源代码的。这里推荐《lucene in action》第二版,中原创 2012-02-13 23:30:05 · 7943 阅读 · 2 评论