自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 JDBM3: Diskbase的高效keyvalue实现

https://github.com/jankotek/JDBM3 每秒100万写操作, 1000万读操作 JDBM provides TreeMap, HashMap and other collections backed up by disk storage.Now you can handle billions of items without ever runn...

2012-06-10 13:07:45 245

原创 自然语言处理

CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名...

2011-07-10 16:50:51 359

原创 Chrome 下的JSON查看插件

https://chrome.google.com/webstore/detail/chklaanhfefbnpoihckbnefhakgolnmc

2011-06-13 11:09:14 249

竞价助手3.3rc1发布

地址: http://www.rayeen.com/viewthread.php?tid=78下载:http://download.rayeen.com/stable/BidderWizard-3.3rc1.rar新增:增加一次调价功能 实时快速 准确判断排名的合理价格 查看前台实际排名功能(待完善) 上升 下调 数据统计显示功能(待完善)下版修正...

2009-08-23 11:47:00 114

《搜索引擎零距离》IRVM 已爬地址处理

[b] 使用BDB来存储已爬地址,用int status的各个不同的位,来表示不同的访问状态:访问过;保存过;修改过 等等[/b][code="java"]package com.rayeen.spider.vertical.data;import java.io.File;import java.io.IOException;import java.io.Uns...

2009-06-24 23:06:29 153

《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(4)

[b]3.3 词法分析和语法分析[/b][size=large][/size] 为了理解IRS语言编译器的实现原理,我们首先要了解关于词法分析和语法分析的知识。[b]3.3.1 定义与简介[/b] 所谓词法分析,就是把文本中的内容按照一定规则识别为一系列的词语单元。例如,假设我们规定“连续的一串字符叫做一个WORD,句号叫做DOT”,那么,序列I love this game就能够被识...

2009-06-23 14:40:35 297

在chinapub上搜“搜索引擎”,按照销量排序《搜索引擎零距离》居然是第一

在chinapub上搜“搜索引擎”,按照销量排序,《搜索引擎零距离》居然是第一 ...[url]http://www.china-pub.com/s/?&displaytype=1&key1=%cb%d1%cb%f7%d2%fd%c7%e6&type=&pz=1&ordertype=4[/url]...

2009-06-23 14:13:29 111

《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(3)

[b]3.1.7 方法调用[/b]例子:foo.bar() foo.bar bar() print "hello world\n" print 语法:[表达式 .] 标识符 [( 表达式 ... [* [表达式]] )] 若未指定被调用方法的对象,则调用 self 的方法。 方法名中除了通常的标识符以外,还可以添加“?”或“!”等后缀。通常在布尔型(返...

2009-06-23 08:59:28 180

《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(2)

[b]3.1.4 类和方法的定义[/b]1. 类定义例子:class Foo < Super def test : end : end 语法:class 标识符 [< superclass ] 表达式 .. end 该语法用来定义类的内容。类名是以大写字母开头的标识符。 类定义实际上就是把类赋值给由类名...

2009-06-22 16:20:04 145

《搜索引擎零距离》第三章 IRS虚拟机及编译器实现原理(1)

IRS语言运行于Java编写的虚拟机上,本书把运行IRS语言的虚拟机称为IRVM(Information Retrieval Virtual Machine),而这个虚拟机上最为重要的一个模块就是内嵌的Ruby解析引擎,IRS语言中的Ruby脚本可以调用IRVM内部的多种功能模块,并能灵活地处理各种循环、条件判断语句,以及Ruby语言的系统函数。下面对Ruby,Java,JRuby作一简单...

2009-06-22 09:48:49 239

《搜索引擎零距离》IRQL语言的解析

[code="java"]package com.rayeen.spider.vertical.util;import java.net.URL;import java.util.ArrayList;import java.util.Arrays;import java.util.Collections;import java.util.Comparator;impor...

2009-06-21 11:54:15 230

新书推荐!清华出版社新书《搜索引擎零距离》

购买地址: http://www.china-pub.com/195494本书作者主页: http://www.rayeen.com 【内容简介】随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从海量的网络信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎技术解决了用户检索网络信息的困难,目前搜索引擎技术正成为计算机科学界和信息产业界...

2009-06-04 16:39:16 143

创业第27天,开始规划把SEO功能加进竞价助手

创业第27天,开始规划把SEO功能加进竞价助手, SEO辅助毕竟也是很有市场的,加进去并不复杂,准备花周末2天时间竞价助手的功能再完善一下。

2009-05-15 22:36:00 77

创业第26天,客户请吃饭,提出了几个项目的大致意向

创业第26天,客户请吃饭,提出了几个项目的大致意向,回去之后编写了各个项目的预算与周期,提交客户审阅。

2009-05-15 22:27:00 84

今天看了一眼我的书架,发现清华出版社出的书真是多啊

今天看了一眼我的书架,发现清华出版社出的书真是多啊~~~~~~~~简单列一下:《数据库实用教程》《数据结构》《GNU/Linux编程指南》《C++程序设计教程》《C++程序设计实验指导》《Perl实例精解》《IBM-PC汇编语言程序设计》《数据结构(面向对象方法与C++描述)》《Window API常用技巧汇编》《计算机组成与结构》《Oracle...

2009-05-14 10:10:11 213

今天看了一眼我的书架,发现清华出版社出的书真是多啊

今天看了一眼我的书架,发现清华出版社出的书真是多啊~~~~~~~~简单列一下:《数据库实用教程》《数据结构》《GNU/Linux编程指南》《C++程序设计教程》《C++程序设计实验指导》《Perl实例精解》《IBM-PC汇编语言程序设计》《数据结构(面向对象方法与C++描述)》《Window API常用技巧汇编》《计算机组成与结构》《Oracle9i中文版基础教程》顺便列一下书架上机械工业出版社的...

2009-05-14 10:02:00 204

创业第23天,完成自定义分组数据统计图表

创业第23天,完成竞价助手的自定义分组的支出金额与点击量实时图表

2009-05-13 12:29:00 106

创业第22天,竞价助手嵌入jfreechart报表引擎

创业第22天,竞价助手嵌入jfreechart报表引擎, 竞价助手具备了商业报表展现能力。

2009-05-13 11:55:00 73

创业第21天,竞价助手的自定义分组相关API完成

创业第21天,竞价助手的自定义分组相关API完成, JAVA富客户端框架Wistay初具雏形, 系统稳定性与可扩展性良好。

2009-05-13 11:52:00 85

创业第20天, 竞价助手嵌入Guice IoC引擎

创业第20天, 竞价助手嵌入Guice IoC引擎, 功能扩充能力得到有效提高

2009-05-13 10:13:00 86

创业第19天, 竞价助手嵌入数据库引擎

创业第19天, 竞价助手嵌入数据库引擎, 数据处理保存能力大幅增加。

2009-05-13 10:05:00 54

推荐新书《搜索引擎零距离--基于Ruby+Java的搜索引擎原理与实现》

清华出版社刚出的新书, 把Ruby用在了垂直搜索上, 看了介绍,感觉不错

2009-05-12 20:30:38 109

创业第18天, 竞价助手3.1主要功能完成

创业第18天, 竞价助手3.1主要功能完成,支持相关词的分析与添加:http://www.rayeen.com/viewthread.php?tid=23

2009-05-04 13:41:00 62

创业第17天,完成竞价助手的相关词分析界面

创业第17天,完成竞价助手的相关词分析界面

2009-05-04 13:34:00 86

创业第16天,设计竞价助手的关键字添加界面

创业第16天,设计竞价助手的关键字添加界面

2009-05-04 13:28:00 62

创业第15天, 《搜索引擎零距离》交付印刷,即将出版。

创业第15天, 《搜索引擎零距离》交付印刷,即将出版。作者简介:王亮,计算机科学学士,主持参与过多个大中型搜索引擎开发与运营,具有丰富的搜索引擎算法理论知识与实际开发运营经验。曾任职于爱立信、Smarter.com、上海网村、上海迈众, 2009年创立上海睿驿信息技术有限公司并任CEO,致力于提供搜索引擎相关的产品和服务。封面宣传语:国内垂直搜索引擎扛鼎之作集开源搜索引擎之大成...

2009-04-30 19:33:00 98

创业第14天, 开始设计竞价助手的新功能

创业第14天, 开始设计竞价助手的新功能。旺旺营销服务启动,开始抓取分析淘宝母婴类客户名单

2009-04-30 19:21:00 56

创业第13天,建立并维护睿驿官方网站 www.rayeen.com

创业第13天,建立并维护睿驿官方网站 www.rayeen.com

2009-04-28 21:08:00 61

创业第12天,百度竞价助手3.0正式发布,上传各大软件下载站

创业第12天,百度竞价助手3.0正式发布,免费共享版上传各大软件下载站

2009-04-27 15:01:00 82

创业第11天, 接受客户意见,增加重要功能

创业第11天, 接受客户意见,给“百度竞价助手”增加重要功能: 直接把一个关键字组中的所有词提升或者降低到指定位置,并且可以使用“保持排名”调价策略, 自动置顶!...

2009-04-27 14:19:00 58

创业第10天,百度竞价助手3.0预发布

创业第10天,百度竞价助手3.0预发布,客户开始测试

2009-04-27 14:15:00 89

打印时能够分页打印的CSS控制参考

CSS 与 打印控制打印时如何控制不显示某些页面元素&lt;style&gt;@media print{INPUT {display:none}}&lt;/style&gt;打印时如何控制分页&lt;TR style="page-break-after:always;"&gt;打印时能够分页打印的CSS控制参考Pagebreak:在打印的时候强迫在样式控制的对象前后换页。...

2007-08-13 08:24:23 411

Haskell教程 (转载)

by rufi  2003.3.21 -- 2003.4.2 一.序 1.什么是Haskell?      Haskell是一种函数编程语言. 1980年代以前对函数编程有很多研究, 但不同的研究者使用各自不同的语法记号, 一起交流时造成一些不便. 后来1987年的时候, 在FPCA'87会议上制定了统一的Haskell语言. Haskell吸收了各家的长处, 是一种纯粹的函数编程语...

2007-08-12 09:00:18 396

时代变迁

昨天买了第七个手机,然后发现自己买过的7个手机居然都是不同牌子的,真巧。。。以下排名分先后科健 GSM西门子 GSM诺基亚 GSM普天 小灵通中兴 小灵通三星 CDMA摩托罗拉 CDMA 顺便排一下自己买过的电脑, 按CPU主频排列苹果PowerBook笔记本  16M富士通FMV笔记本      PII233组装机       赛扬633组装机       图拉丁...

2007-08-11 06:14:43 235

早上发生在银行的真实一幕,让我惭愧不已 (转载)

    早上去了银行办一张汇款。正在大厅写汇款单的,突然一个老太婆颤微微地来到我面前,满脸皱纹,灰白头发,只见从裤袋里掏出一条尼龙薄膜袋子,又从里面掏出了两张破破烂烂的百元纸币,是现在已停止发行的老版纸钞,就是有4个国家领导人头像的那种蓝色的100元。   她一边掏,一边自言自语:唉,以前省吃节用,好不容易收藏着,想不过时间长了竟这样变得破碎了,现在可怎么办呀?买东西人家都不收我。   我很...

2007-07-24 10:16:02 116 1

我所理解的堆排序算法 (转载)

      堆排序在最坏的情况下,其时间复杂度也能达到O(nlogn)。相对于快速排序来说,这是它最大的优点,此外,堆排序仅需要一个记录大小供交换用的辅助存储空间。      堆排序的数据结构是二叉堆,二叉堆的特点有两个,一个是它是一棵完全二叉树,另一个是它的根结点小于孩子结点,所以我们很容易找到它的最小结点----根结点;当然如果你想找到最大结点的话,那就要扫描所有的叶子结点,这...

2007-07-23 22:48:37 80

lucene的MultiPhraseQuery

在lucene的search包下面发现一个新的类 MultiPhraseQuery大致作用,猜测可以实现以下功能:本来,要实现 "a (b|c|d) e" 这样一个语意的Query ,我猜测需要用 "a b e", "a c e" ,"a d e"三个PhraseQuery来实现, 现在MultiPhraseQuery实现了这样一个方法   public void add(Term[] t...

2007-07-22 17:28:26 566

ImproveIndexingSpeed(加快索引速度) 转载

原文地址 :http://wiki.apache.org/lucene-java/ImproveIndexingSpeed How to make indexing fasterHere are some things to try to speed up the indexing speed of your Lucene application. Please see ImproveS...

2007-07-21 16:26:40 173

关于BDB-Directory 的问答

问:Is it possible to turn off directory locking with BDB?  How is the performance compared to regular FSDirectory for queries?答:If you're thinking of using Berkeley DB as a the store behind the Lu...

2007-07-17 19:52:19 63

一个中小型商业搜索引擎在线服务子系统的基本架构

4层架构 1 客户端负责接收用户发出的搜索请求, 转发到后端 “分发服务器”2 分发服务器分发服务器 接收到客户端发出的搜索请求后,根据不同的客户端类型(不同来源的搜索请求),把请求转发到不同的“业务总控服务器”。 3业务总控服务器业务总控服务器连接到各个具体业务的服务器, 接受到分发服务器发过来的搜索请求之后, 经过业务总线(缓存,搜索,相关搜索,定制搜索,竞价排名等等业务,...

2007-07-10 22:50:19 129

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除