<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>chengg0769 - 垂直搜索分析</title><link>http://blog.csdn.net/chengg0769/category/320538.aspx</link><description>垂直搜索分析</description><dc:language>zh-CN</dc:language><lastUpdateTime>Thu, 24 Jan 2008 06:06:40 GMT</lastUpdateTime><ttl>60</ttl><item><dc:creator>chengg0769</dc:creator><title>推荐站点:java,lucene,nutch,搜索技术文章集合</title><link>http://blog.csdn.net/chengg0769/archive/2007/09/20/1793106.aspx</link><pubDate>Thu, 20 Sep 2007 15:06:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/09/20/1793106.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1793106.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/09/20/1793106.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1793106.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1793106</trackback:ping><description>java,lucene,nutch,搜索技术文章集合&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1793106.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>学习搜索开发的重点不在lucene和nutch[ 原创]</title><link>http://blog.csdn.net/chengg0769/archive/2007/09/17/1788670.aspx</link><pubDate>Mon, 17 Sep 2007 19:59:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/09/17/1788670.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1788670.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/09/17/1788670.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1788670.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1788670</trackback:ping><description>而：现在已经有这个开源的东东，如果你要仔细研究lucene并试图写一个C++的版本，那不是不可以，而是耗费可以说十年之功的事情(cutting已经耗费7年了，而且前提他早就是作这个技术的人)，当然你也不会从java版本开始去研究，而会从基本原理＋CLucene研究开始，而至于java版的有速度的说法，当然你再试图研究除c++,java版本以外的版本毫无疑义，为什么呢？因为剩下的都是无法跨平台(如C#)或者解释执行的(perl,ruby等)。更谈不上改进效率了，甚至有些版本搞出空实现来，不害死你我不信。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1788670.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>评论：关于联想在开发一个关于农业的专业垂直搜索引擎[原创]</title><link>http://blog.csdn.net/chengg0769/archive/2007/09/01/1767921.aspx</link><pubDate>Sat, 01 Sep 2007 06:37:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/09/01/1767921.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1767921.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/09/01/1767921.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1767921.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1767921</trackback:ping><description>如果某个农村地区，经济发展得不错，无外乎几个方式：工业化或农业产业化，剩下的没有生气的地区，还是小农意识很强，农村经济没找到发展思路的地区。而实现了工业化或农业产业化的农村，跟城市就没有区别。所以剩下的垂直领域不外乎农业产业化，农业基本需求，如农资，信息化等。而愿意对广告买单的实体还是不少，毕竟农业是个基本课题。比如农业机械，农资，第三产业，以及面向农村市场的一切其它特殊服务。因为面积比较广，受众比较多。还是有很好的前景。但我们看到，光是着重定位到农村或者农业题材的搜索，就足够作无数个搜索来满足需求了。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1767921.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>垂直搜索OR个性化推荐(转载)</title><link>http://blog.csdn.net/chengg0769/archive/2007/09/01/1767902.aspx</link><pubDate>Sat, 01 Sep 2007 06:10:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/09/01/1767902.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1767902.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/09/01/1767902.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1767902.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1767902</trackback:ping><description>转载评注：作者也持着一种垂直就是要作内容，作服务的观点，甚为赞同。就是以精品店模式抵御大卖场的威胁。我甚至定义为平面搜索是作技术的，垂直是作内容和服务的。比如人才搜索，google,baidu只会关注：职位，java，c++程序员，但他不会考虑java和c++需求的细节，而这正是垂直搜索要作好的。当然，针对信息的浏览和发布的具体需求，垂直搜索必然会接合web2.0元素和b2b，信息免费发布等元素，作到完整性服务方式。chengg0769/20070831 mark。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1767902.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>中文垂直搜索引擎、行业搜索引擎大全(最新计137家) (转贴)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/24/1757400.aspx</link><pubDate>Fri, 24 Aug 2007 13:51:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/24/1757400.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1757400.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/24/1757400.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1757400.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1757400</trackback:ping><description>此处主要针对新涌现的行业搜索、垂直搜索引擎。累计137家（不包括传统搜索及其分类搜索），这应该是目前最全面的整理结果。
行业搜索：搜索对象针对所在的行业，采用类似传统通用搜索引擎的分词索引技术，返回关键词最匹配的结果。
垂直搜索：搜索对象针对所在的行业，采用数据采集、数据挖掘、数据整理等技术，返回经过加工处理的结果。

&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1757400.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>垂直搜索的经济帐：开发一个垂直搜索需要多少钱？[原创]</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/20/1751882.aspx</link><pubDate>Mon, 20 Aug 2007 18:24:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/20/1751882.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1751882.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/20/1751882.aspx#Feedback</comments><slash:comments>2</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1751882.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1751882</trackback:ping><description>期间：从第一年的后四个月，服务器，线下计算部分需要硬件投入。假设线上部分投入6台服务器，每台成本3W，则是20W元。如果只有两台占用带宽(web server)，其它是检索或数据库，则平均算4000/台年，托管需要24000/年。线下部分如果用入门级服务器10台(性能相关部分)和40台pc处理。共需要成本32W元。 三年的总费用约40W.考虑人工开销，总计200W。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1751882.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>搜索引擎开发,垂直搜索开发探讨：蜘蛛，并行，搜索，垂直搜索，搜索开发，lucene，java，分布[原创]</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/17/1747507.aspx</link><pubDate>Fri, 17 Aug 2007 00:02:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/17/1747507.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1747507.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/17/1747507.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1747507.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1747507</trackback:ping><description>搜索引擎开发,垂直搜索开发：问题探讨聊天纪录。内容很长。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1747507.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>垂直搜索：主题搜索理论(转)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/15/1743426.aspx</link><pubDate>Wed, 15 Aug 2007 01:21:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/15/1743426.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1743426.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/15/1743426.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1743426.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1743426</trackback:ping><description>利用计算机软件代替人工将资源采集到本地，形成一个数据库,再经过人工评价,将评价结果返回用户.半自动方式的工作流程是:用户交互-----选择恰当的关键词----自动采集相关资源----形成主题资源数据库-----资源建设者对结果评价选择-----结果反馈给用户-----结束任务或修正检索式以开始新一轮的采集.与手工方式一样，半自动方式也同样不适合大规模的资源建设.
&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1743426.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>网页模糊归类算法的应用与实现(转载)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/13/1741803.aspx</link><pubDate>Mon, 13 Aug 2007 23:28:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/13/1741803.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1741803.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/13/1741803.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1741803.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1741803</trackback:ping><description>在归类过程中，采用三级模糊综合评判。一级指标因素集（网页中出现位置）包括：网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、第三段首句、第三段尾句、首段、尾段、HTML标记。二级指标因素集（词性）包括：名词, 动词, 形容词, 副词, 介词, 连词, 助词, 数字, 符号。三级指标因素集：待分类网页中所包含的全部词语的频数。评价集确定为V={V1(不属于0), V2(不太可能属于0.25), V3(可能属于0.5), V4(很可能属于0.75), V5(属于1)}。 &lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1741803.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>网站防止数据被采集的十点黄金建议(转载)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/13/1741739.aspx</link><pubDate>Mon, 13 Aug 2007 22:37:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/13/1741739.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1741739.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/13/1741739.aspx#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1741739.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1741739</trackback:ping><description>很多防采集方法在施行的时候需要考虑是否影响搜索引擎对网站的抓取，所以先来分析下一般采集器和搜索引擎爬虫采集有何不同。   相同点：a. 两者都需要直接抓取到网页源码才能有效工作，b. 两者单位时间内会多次大量抓取被访问的网站内容；c. 宏观上来讲两者IP都会变动；d. 两者多没耐心的去破解你对网页的一些加密(验证)，比如网页内容通过js文件加密，比如需要输入验证码才能浏览内容，比如需要登录才能访问内容等。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1741739.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>商业战略分析：九城关贸为何裁撤搜索引擎部门[原创]</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/11/1738369.aspx</link><pubDate>Sat, 11 Aug 2007 19:10:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/11/1738369.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1738369.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/11/1738369.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1738369.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1738369</trackback:ping><description>我们可以总结一句话：九城关贸不是想作什么惊天动地的大事，所以会让andylin这样的从事搜索开发的精英失望。而且据闪电般裁员来看，基本就是放弃搜索技术了。它是想购买跟自己业务关系最近的出口贸易企业资料，走捷径而步入B2B领域。如果从这些外贸企业的贡献率来讲，猜想如果有10w家注册企业的话，这个交易还是很划算的，简直太划算了。&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1738369.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>开发自己的搜索引擎--Lucene 2.0+Heriterx(目录)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/07/1728840.aspx</link><pubDate>Tue, 07 Aug 2007 06:42:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/07/1728840.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1728840.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/07/1728840.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1728840.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1728840</trackback:ping><description>第4章  Lucene搜索    86
4.1  使用IndexSearcher进行搜索    86
4.1.1  初始化IndexSearcher    86
4.1.2  IndexSearcher的最简单使用    86
4.1.3  IndexSearcher的多种search方法    87
4.2  Hits类详解    89
4.2.1  Hits类的公有接口    89
4.2.2  效率分析    90
4.2.3  Hits内部的缓存    93
4.2.4  Hits类的工作原理    95
4.3  对搜索结果的评分    96
4.3.1  文档与词条的向量空间    96
4.3.2  Lucene的文档得分算法    97
4.4  构建各种Lucene内建的Query对象    100
4.4.1  toString：查看原子查询    100
4.4.2  查询重写与权重    101
&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1728840.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>垂直搜索前途与命运的问题--复：爱游泳的鱼[原创]</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/06/1728478.aspx</link><pubDate>Mon, 06 Aug 2007 14:04:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/06/1728478.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1728478.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/06/1728478.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1728478.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1728478</trackback:ping><description>即使google作了机票，生活类垂直搜索，但它仍然不可能花大力气来完善和改进。因为垂直的层面和切法实在太多，垂直搜索的做法和处理的繁杂使得平面搜索不可能随便抽调几个人就可以跟一个公司，一个团队，和一门心思来作某个层面的人相比。李彦宏说过，搜索引擎之所谓失败，就是心思不纯，心有旁骛。google现在是可以连NC也作，电子表格也作，甚至于手机也作，但我们看到，从企业管理角度讲，它现在的确是在走一段发展的上升陡线，还远远没到企业发展的平缓期。到平缓期时，机构庞大，产品众多，业务受到竞争者打压，市场过度竞争，市场饱和，股价低迷，如果真到这个阶段，必然会精简人力，调整产品线，紧缩开支，甚至裁撤部分。所以我本人对google的追捧者，fans的言论都是置之不理的。我想看问题应该不要信神话，应该分析事务的规律，实事求是的看待问题，看待新公司。用QQ PK MSN来反证我想是合适的。
&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1728478.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>搜索启示录—关于垂直搜索的探讨(爱游泳的鱼/sina's blog)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725518.aspx</link><pubDate>Fri, 03 Aug 2007 22:47:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725518.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1725518.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725518.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1725518.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1725518</trackback:ping><description>这是和BlueBear的聊天记录，是我们在探讨垂直搜索的时候的记录，当然内容也有了些延伸，令我很爽的是和BlueBear的观点很多时候还很一致，嘿嘿！

垂直搜索相关。。引者注&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1725518.aspx" width = "1" height = "1" /&gt;</description></item><item><dc:creator>chengg0769</dc:creator><title>一个开发人员谈他开发垂直搜索的感悟(转载)(推荐)</title><link>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725020.aspx</link><pubDate>Fri, 03 Aug 2007 20:26:00 GMT</pubDate><guid>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725020.aspx</guid><wfw:comment>http://blog.csdn.net/chengg0769/comments/1725020.aspx</wfw:comment><comments>http://blog.csdn.net/chengg0769/archive/2007/08/03/1725020.aspx#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://blog.csdn.net/chengg0769/comments/commentRss/1725020.aspx</wfw:commentRss><trackback:ping>http://tb.blog.csdn.net/TrackBack.aspx?PostId=1725020</trackback:ping><description>03年和04年，分别在国内做过三个垂直搜索的网站
第一个是8848.com，copy对象是shopping.com
当时是兼职给他们打工做的，每个月干10天，给8000￥，做了3个月2004.1.1上线运营
我做的时候就不认为这个方向有前途，该网站实质运营了一年，内部即宣告失败
...&lt;img src ="http://blog.csdn.net/chengg0769/aggbug/1725020.aspx" width = "1" height = "1" /&gt;</description></item></channel></rss>