而:现在已经有这个开源的东东,如果你要仔细研究lucene并试图写一个C++的版本,那不是不可以,而是耗费可以说十年之功的事情(cutting已经耗费7年了,而且前提他早就是作这个技术的人),当然你也不会从java版本开始去研究,而会从基本原理+CLucene研究开始,而至于java版的有速度的说法,当然你再试图研究除c++,java版本以外的版本毫无疑义,为什么呢?因为剩下的都是无法跨平台(如C#)或者解释执行的(perl,ruby等)。更谈不上改进效率了,甚至有些版本搞出空实现来,不害死你我不信。阅读全文>
发表于 @ 2007年09月17日 19:59:00|评论(loading...)|编辑|收藏
如果某个农村地区,经济发展得不错,无外乎几个方式:工业化或农业产业化,剩下的没有生气的地区,还是小农意识很强,农村经济没找到发展思路的地区。而实现了工业化或农业产业化的农村,跟城市就没有区别。所以剩下的垂直领域不外乎农业产业化,农业基本需求,如农资,信息化等。而愿意对广告买单的实体还是不少,毕竟农业是个基本课题。比如农业机械,农资,第三产业,以及面向农村市场的一切其它特殊服务。因为面积比较广,受众比较多。还是有很好的前景。但我们看到,光是着重定位到农村或者农业题材的搜索,就足够作无数个搜索来满足需求了。阅读全文>
发表于 @ 2007年09月01日 06:37:00|评论(loading...)|编辑|收藏
转载评注:作者也持着一种垂直就是要作内容,作服务的观点,甚为赞同。就是以精品店模式抵御大卖场的威胁。我甚至定义为平面搜索是作技术的,垂直是作内容和服务的。比如人才搜索,google,baidu只会关注:职位,java,c++程序员,但他不会考虑java和c++需求的细节,而这正是垂直搜索要作好的。当然,针对信息的浏览和发布的具体需求,垂直搜索必然会接合web2.0元素和b2b,信息免费发布等元素,作到完整性服务方式。chengg0769/20070831 mark。阅读全文>
发表于 @ 2007年09月01日 06:10:00|评论(loading...)|编辑|收藏
此处主要针对新涌现的行业搜索、垂直搜索引擎。累计137家(不包括传统搜索及其分类搜索),这应该是目前最全面的整理结果。
行业搜索:搜索对象针对所在的行业,采用类似传统通用搜索引擎的分词索引技术,返回关键词最匹配的结果。
垂直搜索:搜索对象针对所在的行业,采用数据采集、数据挖掘、数据整理等技术,返回经过加工处理的结果。
阅读全文>
发表于 @ 2007年08月24日 13:51:00|评论(loading...)|编辑|收藏
期间:从第一年的后四个月,服务器,线下计算部分需要硬件投入。假设线上部分投入6台服务器,每台成本3W,则是20W元。如果只有两台占用带宽(web server),其它是检索或数据库,则平均算4000/台年,托管需要24000/年。线下部分如果用入门级服务器10台(性能相关部分)和40台pc处理。共需要成本32W元。 三年的总费用约40W.考虑人工开销,总计200W。阅读全文>
发表于 @ 2007年08月20日 18:24:00|评论(loading...)|编辑|收藏
利用计算机软件代替人工将资源采集到本地,形成一个数据库,再经过人工评价,将评价结果返回用户.半自动方式的工作流程是:用户交互-----选择恰当的关键词----自动采集相关资源----形成主题资源数据库-----资源建设者对结果评价选择-----结果反馈给用户-----结束任务或修正检索式以开始新一轮的采集.与手工方式一样,半自动方式也同样不适合大规模的资源建设.
阅读全文>
发表于 @ 2007年08月15日 01:21:00|评论(loading...)|编辑|收藏
在归类过程中,采用三级模糊综合评判。一级指标因素集(网页中出现位置)包括:网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集(词性)包括:名词, 动词, 形容词, 副词, 介词, 连词, 助词, 数字, 符号。三级指标因素集:待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0), V2(不太可能属于0.25), V3(可能属于0.5), V4(很可能属于0.75), V5(属于1)}。 阅读全文>
发表于 @ 2007年08月13日 23:28:00|评论(loading...)|编辑|收藏
很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取,所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。 相同点:a. 两者都需要直接抓取到网页源码才能有效工作,b. 两者单位时间内会多次大量抓取被访问的网站内容;c. 宏观上来讲两者IP都会变动;d. 两者多没耐心的去破解你对网页的一些加密(验证),比如网页内容通过js文件加密,比如需要输入验证码才能浏览内容,比如需要登录才能访问内容等。阅读全文>
发表于 @ 2007年08月13日 22:37:00|评论(loading...)|编辑|收藏
我们可以总结一句话:九城关贸不是想作什么惊天动地的大事,所以会让andylin这样的从事搜索开发的精英失望。而且据闪电般裁员来看,基本就是放弃搜索技术了。它是想购买跟自己业务关系最近的出口贸易企业资料,走捷径而步入B2B领域。如果从这些外贸企业的贡献率来讲,猜想如果有10w家注册企业的话,这个交易还是很划算的,简直太划算了。阅读全文>
发表于 @ 2007年08月11日 19:10:00|评论(loading...)|编辑|收藏
第4章 Lucene搜索 86
4.1 使用IndexSearcher进行搜索 86
4.1.1 初始化IndexSearcher 86
4.1.2 IndexSearcher的最简单使用 86
4.1.3 IndexSearcher的多种search方法 87
4.2 Hits类详解 89
4.2.1 Hits类的公有接口 89
4.2.2 效率分析 90
4.2.3 Hits内部的缓存 93
4.2.4 Hits类的工作原理 95
4.3 对搜索结果的评分 96
4.3.1 文档与词条的向量空间 96
4.3.2 Lucene的文档得分算法 97
4.4 构建各种Lucene内建的Query对象 100
4.4.1 toString:查看原子查询 100
4.4.2 查询重写与权重 101
阅读全文>
发表于 @ 2007年08月07日 06:42:00|评论(loading...)|编辑|收藏
即使google作了机票,生活类垂直搜索,但它仍然不可能花大力气来完善和改进。因为垂直的层面和切法实在太多,垂直搜索的做法和处理的繁杂使得平面搜索不可能随便抽调几个人就可以跟一个公司,一个团队,和一门心思来作某个层面的人相比。李彦宏说过,搜索引擎之所谓失败,就是心思不纯,心有旁骛。google现在是可以连NC也作,电子表格也作,甚至于手机也作,但我们看到,从企业管理角度讲,它现在的确是在走一段发展的上升陡线,还远远没到企业发展的平缓期。到平缓期时,机构庞大,产品众多,业务受到竞争者打压,市场过度竞争,市场饱和,股价低迷,如果真到这个阶段,必然会精简人力,调整产品线,紧缩开支,甚至裁撤部分。所以我本人对google的追捧者,fans的言论都是置之不理的。我想看问题应该不要信神话,应该分析事务的规律,实事求是的看待问题,看待新公司。用QQ PK MSN来反证我想是合适的。
阅读全文>
发表于 @ 2007年08月06日 14:04:00|评论(loading...)|编辑|收藏
这是和BlueBear的聊天记录,是我们在探讨垂直搜索的时候的记录,当然内容也有了些延伸,令我很爽的是和BlueBear的观点很多时候还很一致,嘿嘿!
垂直搜索相关。。引者注阅读全文>
发表于 @ 2007年08月03日 22:47:00|评论(loading...)|编辑|收藏
03年和04年,分别在国内做过三个垂直搜索的网站
第一个是8848.com,copy对象是shopping.com
当时是兼职给他们打工做的,每个月干10天,给8000¥,做了3个月2004.1.1上线运营
我做的时候就不认为这个方向有前途,该网站实质运营了一年,内部即宣告失败
...阅读全文>
发表于 @ 2007年08月03日 20:26:00|评论(loading...)|编辑|收藏