编程珠玑--程序员思维和排序的作用

一、程序员思维-三思而后coding。 优秀的程序员都有点懒:他们坐下来并等待灵机一动的出现而不急于使用最开始的想法编程 。  相信大部分程序员都遇到过这种情况:写了半天的程序发现一开始就想错了,不得不无奈的推倒重来。我认为,无论多简单的问题都会有很多种解决方案,我们要时刻提醒自己能不能写...

2012-08-19 22:42:43

阅读数 10

评论数 0

java awt 模拟钟表

import java.awt.BasicStroke; import java.awt.geom.Ellipse2D; import java.text.SimpleDateFormat; import java.util.Locale; public class run exten...

2010-10-29 18:41:59

阅读数 14

评论数 0

struts2获得session,request,application等web元素

最常用的方法:利用IOC原理,让struts2自动给你注入web元素的实例 具体操作:可以在你要获取web元素的action类上实现RequestAware,SessionAware, ApplicationAware 这三个接口。并实现这三个接口的方法:setXXX,就可以调用动态注入web元...

2010-10-22 16:43:25

阅读数 16

评论数 0

搜索提示功能实现

搜索提示功能主要依靠的是ajax技术,本系统用的是ajax开源框架dwr。众所周知,dwr最大的特点就是页面可以调用后台类,及其方法。具体实现方法设计:数据库存放用户希望查找的产品品牌型号,当用户在搜索输入栏中输入数据中捕获其键盘onkeyup()事件,当此事件发生时利用dwr调用后台类生成的对象...

2009-05-30 01:42:20

阅读数 94

评论数 0

lucene关键字高亮显示

关键字高亮显示也就是在页面显示时,事先对要显示的内容处理,抽取出关键字并加亮,这里抽取关键字也是用lucene,lucene自带有heightlight包就可以实现此功能。 Highlighter包括了三个主要部分:段划分器(Fragmenter)、计分器(Scorer)和格式化器(Format...

2009-05-24 22:17:28

阅读数 17

评论数 0

lucene整合struts2,搜索引擎的初步实现

构思时这样:采用3层架构 表示层:有3个jsp页面。       1 (index.jsp):用来形成一个搜索的页面(大概弄成像google主页那种模式)       2 (resutl.jsp):用来显示查询结果       3 (product.jsp):用来显示产品的详细信息; 控...

2009-05-24 01:22:34

阅读数 25

评论数 0

lucene索引

说是第8天,其实就是起个计数作用最近太懒了 提取出了网页,并生成了5000多个txt文本文件,下一步就是要对其索引,并存入数据库。对于存进数据库,初学者可能觉得为什么还要用到数据库呢,lucene已经提供了查询,索引。我的理解是存入数据库可以方便我们jsp页面显示。如果数据库中的数据项过于庞大(...

2009-05-20 22:47:57

阅读数 13

评论数 0

htmlparser使用经验总结,与网页提取

先说说htmlparser的初步学习 我觉得htmlparser也不是很困难,就是处理是麻烦些,htmlparser对html节点处理的数据结构为: 解析html有3中方法 1:lexer lexer解析html的方式更底层些,我返回的是node节点的线性序列,不能产生树形序列 2:...

2009-05-18 10:24:14

阅读数 28

评论数 0

htmlparser初体验

昨天晚上完成了网页的下载,暂时不用和heritrix打交道了,有空我要好好研究下它的代码,现在没那么多时间。 今天对htmlparser有了初步了解,并自己写了一个简单的可以提取出网页中图片的url的小程序 package test; import java.io.BufferedWri...

2009-05-02 23:32:26

阅读数 9

评论数 0

heritrix使用经验

1:create  based on existing job 会把order.xml这个文件copy进去,对于在setting中没有可更改的选项会和existing Job 一样。 2:对于上次说的那个 seed report 中抛出的那个domain...异常(种子下载异常)过一段时间种子也...

2009-04-30 16:24:46

阅读数 8

评论数 0

heritrix多线程探索

上午说的那个方法经过试验是不起作用的。 按照上面说的配置后开始抓取网页,发现还是单线程在ACTIVE,查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用base one existing job创建JOB的,这样对于set...

2009-04-28 21:00:15

阅读数 11

评论数 0

heritrix扩展,多线程抓取网页

由于下载速度太慢,打算重载QueueAssignmentPolicy这个类,并重写它的getClassKey()这个方法,网上的代码有: public String getClassKey(CrawlController controller, CandidateURI cauri) { ...

2009-04-28 15:06:11

阅读数 16

评论数 0

爬虫问题

今天爬虫爬了一天,速度出奇的慢,始终是单线程在运作,最后也没有爬完,爬了65%马上要停电了,只能先停了。 现在面临的问题: 1:爬虫始终是单线程,导致速度超级慢,有个方法是继承org.archive.crawler.frontier.QueueAssignmentPolicy这个类,重写他的g...

2009-04-27 22:59:28

阅读数 17

评论数 0

heritrix种子选取,与扩展抓取

搜索引擎首先要用爬虫把网页爬下来,我用Heritrix,选择Heritrix的主要原因是因为手头有一本《Heritrix+lucene构建自己的搜索引擎》书,资料多一点困难就少一点吧。 其实这几天一直在想做什么主题的垂直搜索引擎,最后决定做汽车的。毕竟没什么经验,时间也不是很多了,我想第一期计划...

2009-04-26 22:30:10

阅读数 28

评论数 0

俺不是程序员

俺不是程序员,俺不会写程序!

2007-12-29 23:52:00

阅读数 89

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭