- 博客(40)
- 收藏
- 关注
原创 JDBM3: Diskbase的高效keyvalue实现
https://github.com/jankotek/JDBM3 每秒100万写操作, 1000万读操作 JDBM provides TreeMap, HashMap and other collections backed up by disk storage.Now you can handle billions of items without ever runn...
2012-06-10 13:07:45 272
原创 自然语言处理
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名...
2011-07-10 16:50:51 378
原创 Chrome 下的JSON查看插件
https://chrome.google.com/webstore/detail/chklaanhfefbnpoihckbnefhakgolnmc
2011-06-13 11:09:14 261
竞价助手3.3rc1发布
地址: http://www.rayeen.com/viewthread.php?tid=78下载:http://download.rayeen.com/stable/BidderWizard-3.3rc1.rar新增:增加一次调价功能 实时快速 准确判断排名的合理价格 查看前台实际排名功能(待完善) 上升 下调 数据统计显示功能(待完善)下版修正...
2009-08-23 11:47:00 125
《搜索引擎零距离》IRVM 已爬地址处理
[b] 使用BDB来存储已爬地址,用int status的各个不同的位,来表示不同的访问状态:访问过;保存过;修改过 等等[/b][code="java"]package com.rayeen.spider.vertical.data;import java.io.File;import java.io.IOException;import java.io.Uns...
2009-06-24 23:06:29 167
《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(4)
[b]3.3 词法分析和语法分析[/b][size=large][/size] 为了理解IRS语言编译器的实现原理,我们首先要了解关于词法分析和语法分析的知识。[b]3.3.1 定义与简介[/b] 所谓词法分析,就是把文本中的内容按照一定规则识别为一系列的词语单元。例如,假设我们规定“连续的一串字符叫做一个WORD,句号叫做DOT”,那么,序列I love this game就能够被识...
2009-06-23 14:40:35 308
在chinapub上搜“搜索引擎”,按照销量排序《搜索引擎零距离》居然是第一
在chinapub上搜“搜索引擎”,按照销量排序,《搜索引擎零距离》居然是第一 ...[url]http://www.china-pub.com/s/?&displaytype=1&key1=%cb%d1%cb%f7%d2%fd%c7%e6&type=&pz=1&ordertype=4[/url]...
2009-06-23 14:13:29 120
《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(3)
[b]3.1.7 方法调用[/b]例子:foo.bar() foo.bar bar() print "hello world\n" print 语法:[表达式 .] 标识符 [( 表达式 ... [* [表达式]] )] 若未指定被调用方法的对象,则调用 self 的方法。 方法名中除了通常的标识符以外,还可以添加“?”或“!”等后缀。通常在布尔型(返...
2009-06-23 08:59:28 219
《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(2)
[b]3.1.4 类和方法的定义[/b]1. 类定义例子:class Foo < Super def test : end : end 语法:class 标识符 [< superclass ] 表达式 .. end 该语法用来定义类的内容。类名是以大写字母开头的标识符。 类定义实际上就是把类赋值给由类名...
2009-06-22 16:20:04 153
《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(1)
IRS语言运行于Java编写的虚拟机上,本书把运行IRS语言的虚拟机称为IRVM(Information Retrieval Virtual Machine),而这个虚拟机上最为重要的一个模块就是内嵌的Ruby解析引擎,IRS语言中的Ruby脚本可以调用IRVM内部的多种功能模块,并能灵活地处理各种循环、条件判断语句,以及Ruby语言的系统函数。下面对Ruby,Java,JRuby作一简单...
2009-06-22 09:48:49 270
《搜索引擎零距离》IRQL语言的解析
[code="java"]package com.rayeen.spider.vertical.util;import java.net.URL;import java.util.ArrayList;import java.util.Arrays;import java.util.Collections;import java.util.Comparator;impor...
2009-06-21 11:54:15 245
新书推荐!清华出版社新书《搜索引擎零距离》
购买地址: http://www.china-pub.com/195494本书作者主页: http://www.rayeen.com 【内容简介】随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界...
2009-06-04 16:39:16 151
创业第27天,开始规划把SEO功能加进竞价助手
创业第27天,开始规划把SEO功能加进竞价助手, SEO辅助毕竟也是很有市场的,加进去并不复杂,准备花周末2天时间竞价助手的功能再完善一下。
2009-05-15 22:36:00 89
创业第26天,客户请吃饭,提出了几个项目的大致意向
创业第26天,客户请吃饭,提出了几个项目的大致意向,回去之后编写了各个项目的预算与周期,提交客户审阅。
2009-05-15 22:27:00 92
今天看了一眼我的书架,发现清华出版社出的书真是多啊
今天看了一眼我的书架,发现清华出版社出的书真是多啊~~~~~~~~简单列一下:《数据库实用教程》《数据结构》《GNU/Linux编程指南》《C++程序设计教程》《C++程序设计实验指导》《Perl实例精解》《IBM-PC汇编语言程序设计》《数据结构(面向对象方法与C++描述)》《Window API常用技巧汇编》《计算机组成与结构》《Oracle...
2009-05-14 10:10:11 228
今天看了一眼我的书架,发现清华出版社出的书真是多啊
今天看了一眼我的书架,发现清华出版社出的书真是多啊~~~~~~~~简单列一下:《数据库实用教程》《数据结构》《GNU/Linux编程指南》《C++程序设计教程》《C++程序设计实验指导》《Perl实例精解》《IBM-PC汇编语言程序设计》《数据结构(面向对象方法与C++描述)》《Window API常用技巧汇编》《计算机组成与结构》《Oracle9i中文版基础教程》顺便列一下书架上机械工业出版社的...
2009-05-14 10:02:00 210
创业第21天,竞价助手的自定义分组相关API完成
创业第21天,竞价助手的自定义分组相关API完成, JAVA富客户端框架Wistay初具雏形, 系统稳定性与可扩展性良好。
2009-05-13 11:52:00 93
创业第18天, 竞价助手3.1主要功能完成
创业第18天, 竞价助手3.1主要功能完成,支持相关词的分析与添加:http://www.rayeen.com/viewthread.php?tid=23
2009-05-04 13:41:00 67
创业第15天, 《搜索引擎零距离》交付印刷,即将出版。
创业第15天, 《搜索引擎零距离》交付印刷,即将出版。作者简介:王亮,计算机科学学士,主持参与过多个大中型搜索引擎开发与运营,具有丰富的搜索引擎算法理论知识与实际开发运营经验。曾任职于爱立信、Smarter.com、上海网村、上海迈众, 2009年创立上海睿驿信息技术有限公司并任CEO,致力于提供搜索引擎相关的产品和服务。封面宣传语:国内垂直搜索引擎扛鼎之作集开源搜索引擎之大成...
2009-04-30 19:33:00 105
创业第11天, 接受客户意见,增加重要功能
创业第11天, 接受客户意见,给“百度竞价助手”增加重要功能: 直接把一个关键字组中的所有词提升或者降低到指定位置,并且可以使用“保持排名”调价策略, 自动置顶!...
2009-04-27 14:19:00 64
打印时能够分页打印的CSS控制参考
CSS 与 打印控制打印时如何控制不显示某些页面元素<style>@media print{INPUT {display:none}}</style>打印时如何控制分页<TR style="page-break-after:always;">打印时能够分页打印的CSS控制参考Pagebreak:在打印的时候强迫在样式控制的对象前后换页。...
2007-08-13 08:24:23 449
Haskell教程 (转载)
by rufi 2003.3.21 -- 2003.4.2 一.序 1.什么是Haskell? Haskell是一种函数编程语言. 1980年代以前对函数编程有很多研究, 但不同的研究者使用各自不同的语法记号, 一起交流时造成一些不便. 后来1987年的时候, 在FPCA'87会议上制定了统一的Haskell语言. Haskell吸收了各家的长处, 是一种纯粹的函数编程语...
2007-08-12 09:00:18 410
时代变迁
昨天买了第七个手机,然后发现自己买过的7个手机居然都是不同牌子的,真巧。。。以下排名分先后科健 GSM西门子 GSM诺基亚 GSM普天 小灵通中兴 小灵通三星 CDMA摩托罗拉 CDMA 顺便排一下自己买过的电脑, 按CPU主频排列苹果PowerBook笔记本 16M富士通FMV笔记本 PII233组装机 赛扬633组装机 图拉丁...
2007-08-11 06:14:43 264
早上发生在银行的真实一幕,让我惭愧不已 (转载)
早上去了银行办一张汇款。正在大厅写汇款单的,突然一个老太婆颤微微地来到我面前,满脸皱纹,灰白头发,只见从裤袋里掏出一条尼龙薄膜袋子,又从里面掏出了两张破破烂烂的百元纸币,是现在已停止发行的老版纸钞,就是有4个国家领导人头像的那种蓝色的100元。 她一边掏,一边自言自语:唉,以前省吃节用,好不容易收藏着,想不过时间长了竟这样变得破碎了,现在可怎么办呀?买东西人家都不收我。 我很...
2007-07-24 10:16:02 144 1
我所理解的堆排序算法 (转载)
堆排序在最坏的情况下,其时间复杂度也能达到O(nlogn)。相对于快速排序来说,这是它最大的优点,此外,堆排序仅需要一个记录大小供交换用的辅助存储空间。 堆排序的数据结构是二叉堆,二叉堆的特点有两个,一个是它是一棵完全二叉树,另一个是它的根结点小于孩子结点,所以我们很容易找到它的最小结点----根结点;当然如果你想找到最大结点的话,那就要扫描所有的叶子结点,这...
2007-07-23 22:48:37 89
lucene的MultiPhraseQuery
在lucene的search包下面发现一个新的类 MultiPhraseQuery大致作用,猜测可以实现以下功能:本来,要实现 "a (b|c|d) e" 这样一个语意的Query ,我猜测需要用 "a b e", "a c e" ,"a d e"三个PhraseQuery来实现, 现在MultiPhraseQuery实现了这样一个方法 public void add(Term[] t...
2007-07-22 17:28:26 585
ImproveIndexingSpeed(加快索引速度) 转载
原文地址 :http://wiki.apache.org/lucene-java/ImproveIndexingSpeed How to make indexing fasterHere are some things to try to speed up the indexing speed of your Lucene application. Please see ImproveS...
2007-07-21 16:26:40 186
关于BDB-Directory 的问答
问:Is it possible to turn off directory locking with BDB? How is the performance compared to regular FSDirectory for queries?答:If you're thinking of using Berkeley DB as a the store behind the Lu...
2007-07-17 19:52:19 67
一个中小型商业搜索引擎在线服务子系统的基本架构
4层架构 1 客户端负责接收用户发出的搜索请求, 转发到后端 “分发服务器”2 分发服务器分发服务器 接收到客户端发出的搜索请求后,根据不同的客户端类型(不同来源的搜索请求),把请求转发到不同的“业务总控服务器”。 3业务总控服务器业务总控服务器连接到各个具体业务的服务器, 接受到分发服务器发过来的搜索请求之后, 经过业务总线(缓存,搜索,相关搜索,定制搜索,竞价排名等等业务,...
2007-07-10 22:50:19 137
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人