- 博客(31)
- 资源 (24)
- 问答 (1)
- 收藏
- 关注
原创 搜索引擎Nutch介绍
【摘要】Nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎. Nutch作为开放源代码搜索引擎将会更加透明,从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外,有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结...
2009-07-31 16:03:53 116
原创 企业级搜索引擎Solr使用指南
由于搜索引擎功能在门户社区中对提高用户体验有着重在门户社区中涉及大量需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:1. 基于Lucene自己进行封装实现站内搜索。工作量及扩展性都较大,不采用。2. 调用Google、Baidu的API实现站内搜索。同第三方搜索引擎绑定太死,无法满足后期业务扩展需要,暂时不采用。3. 基于Compass+Lucene实现站内搜索。...
2009-07-31 14:32:00 127
flex和java交互实现实现无限接树形结构
数据库表(Category)的设计为:id parentId type name description13 null search 最新舆情 描述1 13 search 区域 描述4 13 search 机构...
2009-07-30 18:30:34 162
java实现先压缩再下载然后删除压缩的文件
(1):压缩:File zipFile = new File(zipfile);用java中的java.util.zip.ZipOutputStream和java.util.zip.ZipEntry完成压缩功能。 try { //创建文件输入流对象 FileInputStream fis = new FileInputStream(file); //创建文件输出流对象 ...
2009-07-30 17:59:13 647
Flex与Javascript互相通信
Flex与Javascript互相通信。(1):在Flex中有这么一个类:ExternalInterface.在这个类中它给我们:call和addCallbackFlex中As调用Js的方法是: 1、导入包 (import flash.external.ExternalInterface;) 2、使用ExternalInterface.call("Js函数名称",参数)进行调用...
2009-07-27 14:55:50 135
关于如何把baidu/google嵌入到自己的系统当中去做法
项目当中需要进行元搜索。选择了百度。也可以选择谷歌。两者的处理方式是一样的。(1):页面输入:日全食。请求到struts2中的action中。 public String findSearchKeyWordByBaidu() { List<WebScout> webScouts = Utilities.getWebScouts(keyWord, webpage);/...
2009-07-23 16:18:29 203
关于一篇Flex和JSON结合使用的好文章
今天无意中发现了一篇好文章(InfoQ)有关FLex和JSON通信的好文章。该文章详细讲解了FLEX和后台XML数据交互的强大。Flex与JSON及XML的互操作 <script src="http://www.7yue.com/PLUGIN/copytofriends/copy.js" type="text/javascript"></script> 。...
2009-07-19 23:42:15 92
原创 flex有用网站学习
这篇文章详细讲述了Alert组件 一步一步学Flex系列---基本控件之Alert组件 http://blog.chinaunix.net/u/21717/showart_1087001.html flex3+blazeds+spring+hibernate整合小结 http://www.cnblogs.com/jackyrong/archive/2008/10/05/1304007.html F...
2009-07-18 10:42:12 120
原创 7月编程语言排行榜
7月编程语言排行榜 Tiobe今日公布了2009年7月的编程语言排行榜,本期榜单的显著变化是,Object-C增长迅速,市场占有率由上个月的0.123%上升到0.509%,排行第21,与排行第20的Matlab只差0.003%的份额,进入TOP20指日可待。Object-C的增长,要感谢iPhone手机的上升势头。前10名的变化基本稳定,排名依次为:Java、C、C++、PHP...
2009-07-17 13:47:46 345
原创 ExtJS 3.0 正式版下载
ExtJS 3.0 正式版下载 在经历数次RC版之后,extjs.com终于发布3。0的正式版了。总体而言,较2.0改进不大,依然还是那套组件模型,但具体的变化就按照website的标题介绍如下:提供了参照DWR后与后台的通讯包Direct,支持具有明显的REST风格的CRUD服务 一系列的新的组件和例子,包括有图表(Charting, By YUI Flash) ...
2009-07-17 13:44:54 329
原创 2009年开源技术发展趋势
2008年对于许多开源公司来说是一个多事之秋,但同时也是一个取得重大突破性进展的一年。2009年将更是如此,尤其是在企业采购模式,软件的商业模式转变,企业的软件栈的演变方面。目前的经济环境必将促使企业更谨慎地选择IT解决方案,开源技术由于其自身开放性和免费等优势必将成为今年的大赢家。 2008年对于许多开源公司来说是一个多事之秋,但同时也是一个取得重大突破性进展的 一年。2009年...
2009-07-17 13:43:59 106
完成了flex和java结合的完整的一个例子
通过做这个例子学到了很多,以前也做过这样的例子。都是做一遍没怎么理解其中的意思。这次是包括增、删、该、查。全部实现了,下一个例子做下flex的树状形式。这次还是放在了我的qq中转站上,想学习的话。请联系我!...
2009-07-17 00:13:06 79
Flex中提交Servlet后返回xml乱码的处理
郁闷了好半天。为什么我从as中提交给servlet后,servlet返回的xml。到as中是乱码,百思不得其解啊!最后还是功夫不负有心人啊。(1):我们都知道FLex它默认的编码是UTF-8的格式。(2):你的数据库连接:我这里采用的是mysql。jdbc:mysql://127.0.0.1/test?characterEncoding=utf-8(3):查找你的html的编码是不是U...
2009-07-14 22:35:36 85
关于javascript中 "+" 不能解决的方法
javascript中要传递把加号作为一个参数比如:+中国,传递给后台来接受。貌似不行嘞!不信你就试一下。肯定是把+替换成了空.怎么处理呢?【1】:通过正则表达式 var key = "+中国";var reg = /\+/g;key = key.replace(key,"@");然后再在后台处理下就ok了。示例:String keyword = request.getPara...
2009-07-14 18:08:44 287
lucene实现多词/短语搜索
不知道这个方法是否可行,我简单做了个测试。貌似还行。把具体的代码贴出来分享给大家。通过PaodingAnalyzer、IK_Analyzer两个分词器来实现。具体分出来的无用的字:比如:的、人……,那么我们可以写一个配置文件。先罗列出一些无用的词。那么我们在建立索引的时候。就自动的把这些字给过滤掉。我是这么实现的。 public static TreeSet<String>...
2009-07-14 10:57:00 424
原创 很实用的js验证码
<PRE class=js name="code"><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/.
2009-07-10 11:07:17 131
认真琢磨spring中conrExpression
Field Name Mandatory? Allowed Values Allowed Special Characters Seconds YES 0-59 , - * / Minutes YES 0-59 , - * / Hours YES 0...
2009-07-10 10:33:40 127
java中Collection总结与处理字符串的几种方式
【1】:java中util下集合的总结:java.util包有:Collection,List,ArrayList,Set,LinkedList,HashSet,TreeSet,Iterator,Map,HashMap,Hasntable,SortedMap,Comparator,Arrays,Enumeration,Vector,Stack,Properties,StringTokenizer,...
2009-07-09 09:46:35 562
lucene索引中单词或者是多词高亮的处理
高亮的处理lucene为我们提供了Highlighter,利用它的构造函数 public Highlighter(Formatter formatter, Scorer fragmentScorer) { this(formatter,new DefaultEncoder(),fragmentScorer); } 我们可以处理高亮的词。SimpleHTMLForma...
2009-07-09 09:43:09 170
一个有关lucene的困惑!(lucene的过滤问题)
我现在有这么一个问题: 索引已经建立好了。在页面上我想通过点击"过滤"按钮,对当前的某个词来过滤比如:“搜索”。 如何来实现呢?这个“搜索”是我在用Heritrix爬的过程当中分析出来的。过滤完了以后对应的索引中的词还得删除,以免我再一次在输入框中查“搜索”时,这个词是不应该被查出来的。请问各位应该如何来实现呢?我研究了下:好像要实现Filter的一个接口:...
2009-07-07 13:17:21 116
自定义Filter,实现过滤
package com.xp.luence.test;import java.io.IOException;import java.util.BitSet;import org.apache.lucene.index.IndexReader;import org.apache.lucene.index.Term;import org.apache.lucene.index.TermDocs...
2009-07-06 16:59:24 131
关于网页快照的处理方式
最近在用Heritriex+Lucene做搜索引擎的项目,中间有一个功能要实现类似于百度和谷歌中"网页快照"的功能;秀一下我自己的做法吧!(1):页面中的处理很简单;var url = "webSnap?url="+url+"&fresh="+Math.random();//我这个是提交给了servlet了。window.open(url);(2):servlet的处理...
2009-07-03 10:02:29 230
lucene中paoding的中文分词
1,把paoding-analysis-2.0.4-beta解压缩,给项目中加入paoding-analysis.jar。2,把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。3,配置paoding的词库:把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下:#values ...
2009-07-02 14:11:08 123
Lucene中文分词组件JE-Analysis1.5.0
<!-- Title Start-->Lucene中文分词组件JE-Analysis1.4.0 分词效率: 第一次分词需要1-2秒(读取词典),之后速度基本与Lucene自带分词持平。 该组件免费安装使用传播,无限制商业应用,但暂不开源,也不提供任何保证。 运行环境: Lucene 1.9+ 内存消耗: 30M+ 1.4.0 —— 2006-08-21 ...
2009-07-02 00:15:19 168
原创 搜索引擎细分下的站内搜索市场有多大
中国互联网发展二十年来,从雅虎、新浪、网易、搜狐等门户网站占据大半江山的局面,到如今百花齐放,腾讯、百度、迅雷等一大批优秀网站横空出世甚至后来居上,从普通人对互联网的陌生,到现今的两亿多网民,互联网在人们生活中的重要性和发展前景可见一斑。 当然,随着互联网行业越来越迅猛的发展,搜索引擎在其中的地位和做出的贡献,是极其重要且不可分割的。搜索引擎极快的查询,将所有网站上的信息整理在一个平台上供网...
2009-07-02 00:11:59 254
原创 谷歌的变化和搜索引擎优化的未来
濒临死亡的SEO一直是热门话题之一对于SEOER在相当一段时间。一些搜索引擎优化的专业人士担心,他们的职业生涯受到威胁,因为搜索引擎正在不断改进自己的技术。搜索引擎的进程中彻底改造自己的排名战略打击垃圾邮件发送者和改善用户体验。例如,谷歌目前正在改善的意图和行为为基础的搜索,以便提供更相关的搜索结果。或者通俗的说个性搜索,智能搜索。那么,这一切意味着未来的搜索引擎优化?死亡的是搜索引擎优化的必然结...
2009-07-02 00:10:56 215
lucene综合使用
I.Sorting search results在Lucene中有两种特别的类型是用来排序的:Score和Index order要排序结果 可以使用IndexSearcher的重载serach函数,提供一个Sort参数.看个例子.SortingExample.java01 package lia.advsearching;02 03 import org.apache.commons....
2009-07-02 00:09:56 119
原创 lucene的sort的使用
Lucene的搜索结果默认按相关度排序,这个相关度排序是基于内部的Score和DocID,Score又基于关键词的内部评分和做索引时的boost。默认Score高的排前面,如果Score一样,再按索引顺序,先索引的排前面。那么有人问了,如果我要先索引的排后面怎么办呢?隐士研究了源码后发现这是相当简单的事情。以下代码基于Lucene 2.0。看Sort的默认构造函数,相关度就是SortField.F...
2009-07-02 00:05:02 214
原创 java过滤特殊字符串
Java代码// 过滤特殊字符 public static String StringFilter(String str) throws PatternSyntaxException { // 只允许字母和数字 // String regEx = "[^a-zA-Z0-...
2009-07-01 11:21:31 247
原创 ASCII 、GB2312、GBK、GB18030、unicode、UTF-8字符集编码详解
ASCII码是7位编码,编码范围是0x00-0x7F。ASCII字符集包括英文字母、阿拉伯数字和标点符号等字符。其中0x00-0x20和0x7F共33个控制字符。 只支持ASCII码的系统会忽略每个字节的最高位,只认为低7位是有效位。HZ字符编码就是早期为了在只支持7位ASCII系统中传输中文而设计的编码。早期很多邮件系统也只支持ASCII编码,为了传输中文邮件必须使用BASE64或者其他编...
2009-07-01 10:49:35 101
提高hadoop的mapreduce job效率笔记
2011-08-07
树形菜单 -- 如何调用dtree里的函数来写树形菜单
2008-11-28
运行struts2.0报这个错?麻烦大家看下
2009-04-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人