- 博客(6)
- 资源 (9)
- 收藏
- 关注
原创 生活和工作计划
积极的心态,激情,努力 是成功的源泉,也是年轻的标志。本着 工作和生活和谐发展的原则,计划如下:工作:1. 工作上提高效率。发挥积极心态。2. 每天工作时间抽出1个小时学习最新理论知识,1个小时学习实践知识,这样才能使自己在理论和实践上保持前沿。生活:1. 每天晚上12点之前睡觉。2. 每周锻炼身体一次。游泳,足球..3. 按时吃饭,保持健康的身体。4. 每周用半天的出门娱乐。
2007-01-25 09:31:00 1206 1
转载 搜索引擎重复网页发现技术分析
搜索引擎重复网页发现技术分析 中科院软件所 张俊林TIMESTAMP:2006年6月1日 一. 介绍统计结果表明,近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。这些重复网页有的是没有一点改动的拷贝,有的在内容上稍作修改,比如同一文章的不同版本,一个新一点,一个老一点,有的则仅仅是网页的格式不同(如 HTML, Postscrip
2007-01-16 18:05:00 1051
转载 搜索引擎中网络爬虫的设计分析
搜索引擎中网络爬虫的设计分析 1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置4】 网络爬虫拥有智能的根据网页更新分析功能5】
2007-01-10 16:31:00 1163
转载 搜索引擎学习资源收集
一、搜索引擎技术/动态资源、综合类1、卢亮的搜索引擎研究 http://www.wespoke.com/卢亮属于搜索引擎开发上的专家,以前开发过一个搜索引擎"博索"(http://booso.com/),好像现在已经停止开发了,目前他服务于博客网。在他的这个blog上可以了解许多搜索引擎开发的技术和经验,值得持续关注。2、laolublog 有不少来自国外的关于搜索引
2007-01-10 16:13:00 2712
转载 wrapper generator 分装器生成系统简介
早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编写代码,开发一个分装器程序,把网页的逻辑特征抽取出来并把他们存入到数据库。TSIMMIS[13,25,28,29]系统和“斯坦福-IBM多信息源管理系统(1995)”是比较早的帮助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并且保证所获取信息一致性。其重点是开发支持这种包装过程的
2007-01-08 15:41:00 2898
Packtpub.Solr.1.4.Enterprise.Search.Server.Aug.2009.pdf
2010-10-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人