搜索引擎研究

最新推荐文章于 2024-12-05 16:24:16 发布

suilam

最新推荐文章于 2024-12-05 16:24:16 发布

阅读量5.8w

点赞数

分类专栏：有关网络爬虫文章标签：搜索引擎 google blog comments mozilla search

有关网络爬虫专栏收录该内容

3 篇文章

订阅专栏

http://www.wespoke.com/archives/cat_search_engine.php

"Search Engine" archive

搜索引擎的几则消息

1:54 on Tuesday January 25, 2005 | 0 Trackbacks | 1 Comments

1。 google TV 和录像搜索 Google Video search Beta 版暗中发布。 2。 Mozilla 的首席工程师由 google 来付工资： Mozilla's Lead Engineer Now Being Paid By Google Some very interesting news for those of you who like to talk about what Google is up to on the web browser front. Ben Goodger, the lead engineer for Mozilla Firefox, posts on his blog that his new "source of income" is coming from Google. So, has Google hired Goodger to lead a browser development program? The answer is no. Goodger goes on to say that his work with "Firefox and the Mozilla project will remain largely unchanged" and that he "remain[s] devoted full-time to the advancement of Firefox, the Mozilla platform and web browsing in general." In other words, Google now has what you might call an "inside" interest in Mozilla since it's paying the salary of Mozilla's lead engineer. 具体参考 http://blog.outer-court.com google 看来mozilla 成为google webos 的计划为时不远了。 3。博索 booso.com 打算下周移居国内，如今booso 被百度收录为1篇，看来是被当作spam来处理了，被google 收录1万多条记录。下周准备调整战略，重整山河。...

机器的理想

10:35 on Saturday January 22, 2005 | 0 Trackbacks | 4 Comments

中国有句古话，叫“道高一尺，魔高一丈。”当然，也有人这么说“魔高一尺，道高一丈。”这话的对错不管，总归说明了只要有“道”就有“魔”。先从 spam comment 说起：我写过若干篇关于blog 里留言里 spam 的解决方法：Mt 系统如何防止垃圾留言以及如何通过 .htaccess 禁止垃圾 refer，Ban IP/Spam in refer via .htaccess or httpd.conf，MT 防止垃圾留言的新方法，以上方法已经采用在自己的blog系统里，虽然垃圾留言全部封死，这一个月来大约有3篇漏网，但是同时很多人反映留言被过滤，trackback被过滤。垃圾留言的目的很简单： 1]留下联结，让不知情者访问。 2] 有连接，搜索引擎顺藤摸瓜，将垃圾网站的Page rank提高，从而达到 SEO的效果。凡以上做法，现在已经为无数人痛斥，但是由于有搜索引擎的暴利可图，基本上是愈演愈烈了。车东在他的日志里写道使用 nofollow 的teg （+1 rel="nofollow" = 为超链戴上的安全套），从而从搜索引擎端直接解决这个问题。这不单单是一个技术问题，而这个反映出搜索引擎公司已经注意到事态的严重，开始介入用户的行为，调整用户的行为，教育用户的行为。搜索引擎终于妥协了。一直以来以机器进行分析，一直以来人们自豪的搜索引擎，终于发话了，意思仿佛说“小样的，你来骗我，小心！” comment spam 一个小小的魔，已经迫使机器改变了行进的路线。再说Wiki ，wiki 仿佛是共产主义的一股清风，我使用Wiki的时候立即感觉到自己升华了许多。好事不久，我开始发现有人肆意破坏了。并且留言“这东西真好玩，竟然可以随意改网页”。再后来我发现成了垃圾场所，再后来我关闭了 Wiki。我们自己启动project的时候，我开始对wiki进行加密，“小样的，想进来，没门！” 到了去年到处是 wiki spam，我已经不用wiki 好久了，想来想去最后还是得出结论，机器跟人斗，机器一定吃亏。我的email 里每天有无数的垃圾邮件，我总惊讶于发垃圾邮件人的智商之高，甚至他们洞悉了最前沿的信息，例如有一天我的gmail收到一封“Google alert:XXX” 的邮件，实在是佩服垃圾邮件创造者的良苦用心和高屋建瓴的科技视野。机器，一直陪伴我十多年了，我渐渐发现机器在变，变得务实，但是机器的理想一直都没有变，而变的是我们。...

开放式搜索引擎是如何终结的？

19:48 on Tuesday January 11, 2005 | 2 Trackbacks | 4 Comments

好久不写了，一个原因是出于忙，另外一个原因是在看。开放式搜索引擎就是我们通常我们所说的 google , baidu , alltheweb 等，其索引内容完全是由其联结分析进行自动的添加，人工参与排序非常少的一类搜索引擎（人工参与是一个相对概念，因为算法也是人设计的，因此不可能做到无人工参与）。这类搜索引擎在搜索引擎的发展的历史上起到过举足轻重的作用，不过现在却面临诸多的麻烦，甚至是致命的敌人，这些因素极有可能导致在一段时间内搜索引擎的质量和信誉度下降，这些下降也是致命的，会终结这些搜索引擎的盈利模式，加速开放式搜索引擎的死亡。哪些因素呢？ 1] 过渡的SEO SEO 现在已经不是一个褒义词了，很大程度上SEO已经成为Link farm和comment spam的忠诚用户。另外一方面，过度的SEO已经使得大家对搜索引擎的公正性产生了怀疑。当有很多的人想破坏一个体系的时候，当然比建立这个体系要快的多。pagerank和hilltop都已经成了瘸子。 2] spam 网页这类网页是由程序对不同的搜索引擎的搜索结果进行整理，然后做成一个以假乱真的网页，而搜索引擎却又无法分辨真伪。这些网页有的没有内容，有的有内容，而且联结系统复杂，部分是 link farm的改版。例如：在google 里搜索年终总结，可以看出排名第一第二的都是spam网页，打开后网页内容是从搜索引擎搜索到的内容，然后再进行了网页优化。现在这样的程序已经产品化了，能够完整的按照自己的想法产生一个完整的spam网站，而且这样的软件也不少。特别是中文网站，排名10000以内的这类网站大约有近千个了。 3] 版权也许从来没有人注意到搜索引擎的版权，可是这个问题我先提示以下。搜索引擎通过搜索显示出来的[截断文档]其实很大部分应该说是一种特殊的[转载]，至于这种转载虽然加了联结，但是能否真正避开某些法律壁垒也未知。 4] 技术搜索引擎的技术3到5年内平民化，也是开放式搜索引擎面临的一个非常大的压力。我一直期待有一天，每一个公司的IT部门都能在1/2周的时间内利用现有的工具，制作符合公司需求的搜索引擎，开放的也好，封闭的也好，我想这个时间并不遥远。...

利用 Google Adsense 进行小笔捐款的设想

20:38 on Thursday January 6, 2005 | 0 Trackbacks | 10 Comments

前几天为张琳捐款后就一直在思考一个问题，如何才能方便的将爱心和捐款方便的结合起来，如何才能利用现在的网络资源包括论坛/Blog的资源进行捐助？我如果不是这次刚好回国问起小覃这件事情，恐怕我是无暇捐助的。那么我相信和我怀有同样想法的人一定不少，不是不愿意捐助，而是手续麻烦，无从下手。那么我设想现在大家（相当多的人）都有了blog，也在上面启动了google提供的google adsense 的服务，每天都有一点点地小笔收入，而google的账户管理系统却只和网页上嵌入的google adsense的 javascript的代码里面的 google_ad_client 有关，因此可以这么做： 1] 由一定的组织，机构为被捐助人设立一个 google adsense 的账户，就是申请一个google adsense。 2] 公布这个google adsense 的 google_ad_client的号码 3] 任何个人有意进行捐助/协助的话就可以将这个 google_ad_client号码替换自己叶面上原有的google_ad_client。 4] 这个替换的时间长短依据你大约打算捐助的额度来计算，例如我的全部网页都更换了被捐助者的google_ad_client，那么一个星期大约捐助20-40美元。 5] 被捐助者的google adsense账户可以通过渠道/Url来跟踪各个捐助者捐款的数额，以便及时更新、通知。至此，能够利用自己的 google 广告进行小笔的捐助，即奉献了爱心，又很容易方便，何乐而不为呢？...

Googlebot 的访谈 Interviews with Googlebot

21:57 on Tuesday December 28, 2004 | 0 Trackbacks | 1 Comments

原文刊登在Interviews with Googlebot 觉得这样的对话很有趣，实际上并不能帮助我们理解网络爬虫，不过简单的开心阅读也不错。我将之翻译如下： Q: 你刚才完成了一个深入的爬行，你感觉怎么样？ A: 给我来杯猛烈的饮料，或者双倍！ Q: 你发现了任何有意思的东西么？ A: 现在还不清楚。 Q: 你爬了多少网页？ A: 像McDonald's(麦当劳)说的，成千上万。或者像Carl Sagan（美国著名的物理学家）说的，无所谓。 Q: 喝了几杯啤酒后，在你完成了一个深爬(deep crawl)后第一件事情是什么？ A: 我要洗个澡，我感觉很..很污秽。 Q: 什么是你工作最糟糕的部分？ A: Blogs，这点毫无疑问。那些糟糕的 blogrolls 进入你的脑袋直到你晕倒。那些糟糕的东西还试图幽默，天啊，想想这到底是怎么回事。 Q: 你怎么看待你被叫做网络蜘蛛 (spider )？ A: 这世界上没有什么蜘蛛能够向我跑的这么快。 Q: 你在爬行中间做什么呢？ A: 密谋Tim Berners-Lee（WWW的创始人）的死亡。 Q: 谢谢你接受这次采访。 A: 你只吸引了我1% 的注意力，不客气。...

Larbin 一种高效的搜索引擎爬虫工具

2:35 on Friday December 24, 2004 | 0 Trackbacks | 3 Comments

离开dallas已经整整十天了，基本上除了到处见见人之外基本上没有其它的时间来学习新知识，也没有空将要完成的工作收尾。 Niu.la ，Booso，luliang.dhs.org 和 wespoke 相继宕机，看来年底各个地方的维护都不力。 itseek的开发者多次问起 larbin 的事情，我就在这里对larbin做一个简单的介绍。因为相对于复杂的系统来讲，larbin具有高度的可配置性，和良好的工作效率。１］larbin的简介 larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。 Larbin只是一个爬虫，也就是说larbin只抓取网页，至于如何parse的事情则由用户自己完成。另外，如何存储到数据库以及建立索引的事情 larbin也不提供。 latbin最初的设计也是依据设计简单但是高度可配置性的原则，因此我们可以看到，一个简单的larbin的爬虫可以每天获取５００万的网页，实在是非常高效。 2] Larbin的性能特征高效是我对 larbin 的评价。今年四月份的时候我对larbin的性能做过一个测试，luliang.dhs.org是我自己常用的服务器，CPU 为1G，内存512，其它的性能一般，因为是三年前购置的。我将我自己的网页六翼作为入口，运行larbin进行５层内的url的抓取。当时纪录的一些数据： Internet IO: 500-700k/per second （我想大约我的网络下载的瓶颈了吧） CPU top: 5%-15% disk consume: 1M/s ，基本上一个小时爬 3个G 的网页。差不多20万的页面 url 解析: 200万－300万每小时 3] larbin 的作用很多人初见 larbin 不知道从哪里下手，那么我来简单介绍一下 larbin 的功能和实际应用。 1. larbin 获取单个、确定网站的所有联结，甚至可以镜像一个网站。 2. larbin建立 url 列表群，例如针对所有的网页进行 url retrive后，进行xml的联结的获取。或者是 mp3 。 3. larbin 定制后可以作为搜索引擎的信息的来源（例如可以将抓取下来的网页每2000一组存放在一系列的目录结构里面）。总归，larbin应当是一个被广大搜索引擎爱好者应当引起注意的一个产品，虽然其功能逐渐被 Nutch 所接受和替代，但是其在爬虫上的优美设计的确值得称道。...

关于google adsense的几个敏感问题

14:26 on Friday December 10, 2004 | 0 Trackbacks | 4 Comments

上一篇Google adsense 支票和网站广告赢利分析收到了不少留言，也有email，关于google的相关广告，因此我想澄清以下的观点： 1] 关于网站的导向不要因为某些关键词点击付费钱比较多而去写与之相关的内容，毕竟，钱不是一切。加 adsense 完全是一个兴趣行为，千万别把这个看的太重。顺便说一句了，个别词汇，都在1~5美元一次点击(CTR ~ $5/click)，你在我的网页里找不到他们，我也尽量避免这些错误诱导。 2] 关于 google adsense 的 fraud click （欺骗点击）只要 google 做的不够好，就有被人恶意利用的可能，就需要改善。至于有人用我提出的方法是 hack 了google的adsense，只能说明 google 的adsense 还不够好，对商家还不够负责任。因此，我会在适当的时候公布更多的关于如何防止欺骗点击的一些做法。 3] 公布收入的那部分我已经删除了，毕竟收了人家钱就要按照人家的协议做事情。在此我向 google 表示道歉。(估计google的人也看不到。)...

Google adsense 支票和网站广告赢利分析

18:20 on Wednesday December 8, 2004 | 1 Trackbacks | 8 Comments

google adsense的支票我收到有快两周了，是11／22日邮出的那一批了。比我最初预计的好，但是仍然比我期望的低。我一共有两个网站放了Google adsense 的广告，wespoke 和 booso.com 。重要，删除假设一个网站完全采用google adsense 进行广告赢利，按照我的数据换算成 Alexa拍名／天IP访问量／天流量／月收益应当有下面的表： 10／7500000／5千万／150000美元 100／750000／5百万／15000美元 1000／120000／一百万／3000美元 10000／15000／十五万／400美元看来做相关广告应当对于一中型网站来说是可以有些收益的，当然对于最高端的网站将没有什么吸引了。全球拍名100才能得到1万多美元的月收入，简直是太少了点。当然对于我自己来说，每月有1/2百美元的收益也不错，至少可以请请朋友吃饭或者看上几场电影。对于如何提高google adsense的收益，我还是推荐您阅读 Google Adsense 如何增加点击率／Google adsense 广告功略及〖google 广告三定理〗，因为你要尽量少的公益广告才好。...

Accoona 来势汹汹

16:09 on Monday December 6, 2004 | 1 Trackbacks | 2 Comments

Accoona 以前比较知名的行动就是举办过一次美发女子象棋赛和国际女子象棋赛。那个时候大约是夏天，然后就再也没有声音了。几天突然暴出冷门消息，说Accoona跟中国ChinaDaily.com.cn 「中国日报」合作，一下子有了进百万的商业信息，能够深层搜索，而且拥有非常高的人工智能等，听起来很是了得。 Compaq Computer的前CEO Eckhard Pfeiffer被提名为Accoona的董事长，不知道会不会再走compaq的老路。顺便说一下，booso 也已经抓取了 blog 的 rss 开始提供博客/blog 搜索了。现在有1000多个来源，没有时间找 rss 源，回头用 larbin 爬个几天将中文的 rss 收集个几万才好。博索博客/blog搜索搜索博客...

商品搜索引擎

12:26 on Friday December 3, 2004 | 0 Trackbacks | 2 Comments

朋友私下里将他们完成的第一个商品搜索引擎给我试用了一下，真得感觉非常不错。其实商品搜索引擎去年的时候他们就开始设计开发了，一直以来没有动向，我都忘记这这件事情了，知道今天收到email才知道原来已经做好了。记得去年Google 的 froogle.com刚出来的时候，甚是惊讶，觉得google怎么会往买卖商品上走，当然今天google做什么我都不会惊讶了，当初不是。商品搜索引擎的根据地当然是网络销售商了，将物品作为主要的搜索对象而且对于每种物品的通用情况建立如下的一些参数：商品名称／别名等｜商品来源（网站）｜商品的联接｜商品的描述｜商品的照片｜商品的价格｜商品的运输／投递｜商品的评价｜商品的过期时间｜购买的付款方式｜商品的销售情况／销售量 1] 以上的参数如果盲目的采用爬虫的技术去进行抓取，将会非常困难，需要非常强的人工智能。2] 如果有人工参与的情况下，可以逐个网站建立parse的方案，有一些则需人工收集，也比较可行。朋友的商品搜索引擎有几十个网上商场的信息，不算太大，完全可以采取以上的方法2。 3] 网上商家按照商品搜索引擎要求提供XML输出，通过加密渠道给搜索引擎作为来源，省去了爬虫的烦恼。 4] 更新性的商品增加通过独立协议发送给搜索引擎。 3] + 4] 将会将商品搜索引擎的开发难度降低许多，也是部分商品搜索采取的模式。无论如何，多元化的搜索引擎已经越来越丰富我们的生活了。...

平移算法简介

12:20 on Thursday December 2, 2004 | 0 Trackbacks | 5 Comments

在开发Booso新闻搜索引擎的时候，出现一个问题就是有很多的新闻属于转载的形式，要判断新闻是否转载，经过实验，我发现可以用“平移”算法来实现。 "平移算法"非常简单易用，就是比较两个文章／字串中最高的重叠率和平均重叠的长度。例如我们有两个文章的标题： "报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网" http://tech.sina.com.cn/t/2004-12-01/1231468255.shtml "权威机构调查显示中国ip视频通信应用早于西方_搜狐it" http://it.sohu.com/20041201/n223268718.shtml 以上两个新闻是转载同一来源，但是略做了更动，根据平移算法，我们固定一个字串，然后将另外一个字串从末尾对应第一字串的开头进行平移，然后计算两个字串之间的交集。如果字符完全一样则为1，不一样为0，将所有的值加起来。 "________报告显示中国ip视频通信应用早于西方国家_通讯与电讯_科技时代_新浪网" "权威机构调查显示中国ip视频通信应用早于西方_搜狐it" 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0" 可以看到当B和A平移到一定的位置的时候能够找到最大的重叠度。上例是14个连续字符。相识性：AB重叠部分／（A的长度＋ B的长度 - AB重叠的长度） 14／ (33+25-14) = 31% 一般超过20%即可判断为相同主题或者是转载同一来源。平移算法的功能： 1] 实现对高度相识性的文章进行识别。转载，来源的识别。 2] 可以发现主题，发现核心内容。例如实现匹配的部分，上例是 A&B = “中国ip视频通信应用早于西方” 是完全匹配的部分，就是相识文章的最核心的内容。...

博索Booso 贴吧登场

12:34 on Thursday November 18, 2004 | 0 Trackbacks | 3 Comments

不要砸我，随便做了一个，说我抄袭百度也罢，说我模仿一搜也行，不过是随便制作一个贴吧自己玩玩。博索贴吧的特征：没有特征。博索贴吧例如Google 吧...

基于傅立叶变换的网络异常态和点击作弊的分析

11:43 on Thursday November 18, 2004 | 0 Trackbacks | 0 Comments

很多的时候网络异常态的判断需要有非常精确的做法，因为预警系统一旦启动如果误判将造成非常多的不必要的麻烦。以往的多种滤波模型例如卡尔曼滤波等由于起计算的复杂和滤波矩阵的繁琐，一直不被业界看好。点击作弊是网络广告亟待解决的一个难题，因为单纯的根据IP，出现的概率已经不能满足在大用户量点击的情况下发决出那些是fraud click，哪些是正常的点击，因此一直一来是一个难以解决的难题。参考我以前写的如何防止google adsense fraud clicks(欺骗点击作弊) 的分析本文在这里给出通过傅立叶变换进行网络异常态的判断和惊醒作弊点击的帧测。傅立叶变换最初是数学上连续函数进行分解的一种方法，也是数字信号处理中的基本操作，广泛应用于表述及分析离散时域信号领域。进行 k失（又叫波失）到X(空间)的变换，得到：傅立叶变换广泛的应用在光谱分析和信号处理上，举一个简单的例子，我们通常使用的压缩算法就是从傅立叶变换里得到的。最初的傅立叶变换是针对连续函数，构造Deta函数后可以针对离散函数进行，然而傅立叶变化的速度很慢，因为收缩的因子跟 1/N 成正比，后来有人提出了快速傅立叶变换：FFT ，再后来进入了小波分析 wavelet ，算是彻底的将傅立叶的技术应用到了工业界。网络异常的判断最主要的依据就是能够进行短时间内判断网络接入量的频率(频域的分布)，在依据以往时间段的频域的分析进行对照，如果连续出现在一个稀少区域，那么就是有异常发生。点击作弊计算两点，第一，点击作弊属于网络异常态，但是基本上属于高频段。第二，点击作弊的访问频域的分布如果跟正常态有出入，那么则有嫌疑。对博索进行了网络异常态和点击作弊的分析，基本上结果是正面的，看下图。参考文献： http://www.cwp.mines.edu/%7Ezmeng/waveletlab/waveletlab.html http://astronomy.swin.edu.au/~pbourke/analysis/dft/...

博索新闻搜索引擎 Beta 2.0 新增加新闻分类功能

18:49 on Thursday November 11, 2004 | 0 Trackbacks | 0 Comments

博索新闻搜索引擎增加了即时新闻类聚的功能。化了半天的时间实现了最简单的雏形，有5个分类，分别是财经，互联网，科技，社会新闻，娱乐休闲。每天凌晨4点钟更新一次，每个类别25条新闻。这样做的好处是我的新闻爬虫每天自己到处爬，到处跑，然后它们又将这些抓到的新闻进行分门别类的整理，做成网页，等于替我进行了一些预先的浏览工作。至于更深入一步，则有两种做法“自动类聚，分类比较”，使得新闻组成一个cluster。这些过程比较简单，关键是样本的采纳，也许会有相当大的系统误差，回头再处理。关于新闻的分类，可以参考我以前写的网页自动分类引擎或者中文网页自动分类引擎作为参考。新闻类聚是信息情报挖掘系统的核心，再加上一些功能，一个情报挖掘系统就可以实现。发现现在有不少新闻属于转载，因此未来我会加上一个新闻类别的自识别最近邻居的功能。这样可以有效识别重复出现的新闻。具体可以参考 K-nearest neighbor 的方法，实在太忙了，要这样下去恐怕又要拖工了。参考文献： F. Li and Y. Yang. A loss function analysis for classification methods in text categorization J. Zhang, R. Jing, Y. Yang and A. Hauptmann. Monified logistic regression: an approximation to SVM and its application in large-scale text categorization...

IT新闻搜索引擎 Beta 测试

14:30 on Friday November 5, 2004 | 1 Trackbacks | 7 Comments

这一周利用空余时间，制作了专门针对IT新闻的搜索引擎，主要收集一些门户网站的IT新闻和一些 IT门户的新闻，在测试阶段。地址如下：http://booso.com:8080 博索 IT 新闻搜索引擎，因为属于测试阶段，有反馈直接在这里留言好了。给大家一个消息，一个月后我会发布Booso 的正式版本，届时将是一个前所未有的新搜索引擎，对现有搜索引擎的概念的一些革新，敬请关注。...

新闻搜索引擎的技术分析及google news的对照

15:27 on Tuesday October 26, 2004 | 0 Trackbacks | 6 Comments

既然有人提出要我带队开发新闻搜索引擎，我想其实这个提法是有一些问题的。新闻搜索引擎不过搜索引擎的一类，预期说开发新闻搜索引擎，如果更准确的说不如说是开发一个“能够识别新闻”的“新闻爬虫”。既然没有“新闻爬虫”这个概念，我就将其定义为“News Crawl”，这个News Crawl与以往的爬虫和蜘蛛有什么不同？难度何在？有和意义？ 1] 新闻爬虫是机器爬虫，仍然是按照以往的爬虫程序进行运行，但是不同之处如下：只爬固定的新闻站点，或者某个站点的某一个 directory 下。这样确保新闻的来源爬虫对新闻站点进行分类／权重的计算是机器＋人工参与的爬虫对新闻的抓取要频繁的多爬虫要对新闻网页里面的垃圾（噪音，例如广告，无用的联接）信息能够精确的处理。 2] 以往的爬虫是一股脑的抓取，而新闻爬虫的Parser的难度要求是核心了。这点上基本上要用AI的一些技术放进去进行智能的分析。 3] 以往的新闻网站，例如新浪，搜狐，都是进行人工编辑，无论在人力上和时间上都有大量的浪费和延迟，因此新闻爬虫的好处不言而愉，就象有无数的机器编辑在帮网站进行浏览，提取，寻找新闻，当然新闻来源要快的多而且剩力得多了。可惜的是，AI(人工智能)发展到今天，连一个网页的摘要都不能产生，因此在一定程度上看来还仍然需要人工的参与。...

多级缓冲技术在Booso(博索)搜索引擎开发中的应用

9:42 on Saturday October 23, 2004 | 0 Trackbacks | 0 Comments

在Booso 搜索引擎的开发过程中，应用了首创的〖多层缓冲技术〗。多层缓冲技术的基本理论依据是 1] 因为在一定的时间范围内，通过搜索引擎查询的Query的范围相对整个查询次数来说要少的多，而且查询比较集中在一些热们的词汇上。例如： booso.com 有一天接受到7万次的查询，而这7万次的查询集中在9400个独立查询。 2] 搜索引擎的数据库在一个时间段内没有新记录进入，因此搜索结果在一定的时间内保持相对稳定。例如：百度一般在早上7点钟的时候才会更新数据库，而这后的24小时查询的结果排序都是完全一样的。实现多级缓冲技术的途径： 1] 多级缓存技术。Multi level Buffer system 多级缓存技术是面向大型的搜索引擎的一个良好的选择，实现可以采用反向Proxy的代理方式并且配置缓存的时间周期小于数据库的更新周期的一半。 2] 多级数据库索引触发系统 Multi layers trigger system 这种技术就是在搜索引擎的主数据库的基础上建立每日的当日搜索数据库索引，将最常用的搜索的结果植如一个相对小的数据库，这样经过多级数据库出发系统，就会建立一个类似金字塔型的多层索引系统。这是一个面向巨型搜索引擎的解决方案，例如：一个搜索引擎每天有2亿次的请求，我们有如下的参数： 2000万的请求在3000 个请求内 4000万的请求在100000个请求内 12000万的请求在1000000个请求内因此构造的当日数据索引系统： 3000 请求的索引： 1 G 100000 请求的索引：10 G 1000000 请求的索引： 50 G 这样一个供一天查询2亿次的搜索引擎也只需要 61 G 的当日索引变够了，的确是一种最节省的办法。博索采用了第一种的方法进行开发。...

博客搜索引擎逐渐成为一个趋势

16:06 on Friday October 22, 2004 | 0 Trackbacks | 4 Comments

博客(Blog)搜索引擎相对与以往的搜索引擎相比有几个明显的优势: 1] 博客的分类机制比较稳定，这是因为一般的blogger都将自己的blog分成了几个类别，那么这样基本上在用户进行发文章的同时已经进行了最基本的筛选，相对类别就比较容易计算。 2] 博客的世界里常常关心的是最新的最具有有意思的一些新闻的突发的时间，而这些又是大家进入搜索引擎寻找乐趣的目的之一。 3] blog的维护者经常更新网页，这样就会使得一个网站的死网页的个数少，有利于爬虫的效率。现有中国的几个博客搜索引擎主要有两个：Booso 博索搜索引擎和Grassland 。而国外的则已经不计其数了，今天有有一个登录：Blabble ，经过了基本的测试，没有太多的卖点。...

HillTop 算法改进的研究

11:02 on Thursday October 21, 2004 | 0 Trackbacks | 0 Comments

Hilltop 算法是Krishna Bharat和George A. Mihaila 两人提出的依靠“专家”分类进行快速定位的方法。 Hilltop后来被Google采用，并且设置在Pagerank的前端，即在请求到达的时候先按照Hilltop的算法进行查询，给出权重，如果没有将返回“0”，然后进行Pagerank的计算，最后加权两种算法所得到的结果进行排序。 Hilltop被认为是Pagerank算法后google的一大改进，可是仍然存在一个致命的缺点：专家类别的设定不够光泛。这是因为专家类别的设置一是需要手工进行操作，而是需要进行不断的调整。而且专家类别一般都有很窄的信息空间，起到的作用也是有限的。在这个基础上我进行如下的假设和改进：设立一个 Decay Function (衰减函数) 和 Correlation Function(相关函数) 对于文档A 来说： Decay Function = 1/ e^(Minium steps) Minium steps 是通过专家类别经过最短的联接到达本文档A 所经过联接数目。 Correlation Function = cos (A with expert documents) 就是计算这个文档A 和搜索的专家文档的相关性，可以通过关键词空间的夹角进行计算。那么经过从新的定义以后能否找到专家文档的权重将按照： Decay Function X Correlation Function 得到，这样将会有相当的改进和提高。...

网页自动分类引擎

16:56 on Wednesday October 20, 2004 | 0 Trackbacks | 1 Comments

对于搜索引擎来说，能够自动的识别网页的类别还不够，因为一个网页的类别往往不是单独的，而是在不同的分类基础上有不同的分类结果，本文在这里再次给出信噪比这个概念：信噪比是一个用来衡量网页里关键词的信息是否超过一定的阈值的关键：网页信噪比（Significant）一个网页针对不懂的搜索词有一个信噪比的概念，信噪比Significant的定义如下： Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb) Ns为被搜索词出现的次数，Nb是背景项，是指总共这个网页里包含的词汇量。这是针对单个搜索词语而言的，如果针对多个词语，通常是采用 Sig=Sigma(Sig_i)，这个Sig_i是第i个词汇的信噪比。通常的情况下如果一个网页的Nb背景项将相对稳定，可以采用Nb＋Ns来代替。博索的网页自动分类引擎是第一个在线计算网页信噪比的在线搜索引擎，可以根据booso的结果进行整理分类，可以知道为什么在搜索引擎里那些拍名最靠前的网页能够上榜的原因了。上图的绿色表示权重，粉红表示信噪比。...

gdesktop.com 与 google 的桌面搜索

11:34 on Thursday October 14, 2004 | 1 Trackbacks | 1 Comments

Google 升级了桌面搜索系统Google Desktop 桌面系统。前次在Google WebOS：揭开Google这个谜底吧里写到 google 要做web操作系统，那么google 的进展呢？先看看这个域名吧： gdesktop : whois gdesktop.com Registrant: Google Inc. (DOM-1313678) 1600 Amphitheatre Parkway Mountain View CA 94043 US Created on..............: 2004-Apr-06. Expires on..............: 2008-Apr-06. Record last updated on..: 2004-Oct-12 15:56:50. 是今年4月份注册的，同时注册的还有 gbrowser.com Gdesktop 四月一日发布第一版，因为所有的人都在注意gmail 因此错过了这个。现在google桌面已经比较好用了：Google Desktop 桌面系统。...

Google Adsense 如何增加点击率

16:09 on Wednesday October 13, 2004 | 0 Trackbacks | 16 Comments

Google adsense 广告功略及〖google 广告三定理〗 www.wespoke.com 和blog.wespoke.com以及 http://booso.com 都在九月份开启了google adsense的服务，基本上应该算是中文google adsense开通最早的用户了。随着google adsense的广泛流行，随之而来的一个问题就是如何提高自己adsense的收入。对adsense进行了两周的观察和调研后，基本上有一定的逻辑原则，写在这里供google adsense用户参考。 1] google adsense 广告之第一定理只有被点击的广告才能算钱。这默认的意思就是你的广告展示必需有用户看到，必需被用户点击才有效。那么以下的因素必需考虑： (1) 广告的位置 (2) 广告的色彩 (3) 广告的大小 (4) 最重要的就是你这个广告的浏览量了，或者叫展示次数。 2] google adsense 广告之第二定理只有用户关心的内容用户才会点击当用户看你的文章时，如果在文学的页面上看到是有关Java培训的信息，他一定不会点击，但是如果广告的内容是文学交友，文学期刊等，效果要强的多。这里引申的意思是你的单篇的页面的内容要尽量集中，只阐述一个问题，这样google 的Mediapartners-Google爬虫才不会误判你的网页类型和内容。 3] google adsense 广告之第三定理任何作弊和欺骗的方法都行不通。国人善于钻空子，任何一种健全的商业规则只要放入华人市场，立刻就变了味道，例如传统的alexa拍名。要说明的是：google adsense不会是你的个人谋生手段，将更多的精力花在其它的有意义的事情上要比寻找作弊的努力强的多。其它的一些建议： 1] 善用渠道渠道可以让用户知道自己哪个方面的网页是最受用户欢迎的和最常被点击的。例如我个人的blog和个人技术 blog www.wespoke.com 平均每天浏览量在5000次左右，每天大约有2，3美元的收入。而 booso.com 每天有50000次的点击，但是常常只有1，2美元的收入。推荐阅读：google adsense fraud clicks(欺骗点击作弊) 的分析谢谢Punky的建议，本文进行了修正。...

转载John Dvorak：Google and its following

17:54 on Sunday October 10, 2004 | 0 Trackbacks | 0 Comments

注：这是一篇非常有意思的文章，即便没有太多的新鲜概念，但是也在一定程度上反应了IT舆论界对Google的看法。文中提出两个半成品的搜索引擎： http://www.kartoo.com 和 http://www.mooter.com 有创新的意义但是不能算是主流。 John Dvorak：Google Google的IPO 会激起人们对搜索引擎的兴趣，还会有新式的Web 搜索。毫无疑问，今年是搜索引擎年。Google的IPO 将聚敛起巨大的资金，并产生许多纸面富贵的富翁。尽管投资界并不认为这次IPO 标志着一次新繁荣的开端，但它显然会吸引足够多的眼球，引发一场新的搜索引擎热。总之，Google不仅使很多人一夜致富，而且它已经是一家在挣大钱的公司了。 AltaVista 是第一家知名的纯粹搜索引擎公司，但自从它的所有者Digital Equipment 公司被Compaq收购后，它就逐步无力支撑下去了。因为Compaq公司把它置于次要地位，采取完全自生自灭的态度。就这样丢掉了一只会下金蛋的鸡，真是遗憾。...

Booso news services and rss service

18:37 on Wednesday October 6, 2004 | 1 Trackbacks | 0 Comments

Booso.com lunch a new service: News search and rss service, news.booso.comwill be able search most recent news. at the same time, booso.com also will generate rss for this search. http://news.booso.com/google, http://news.booso.com/blog, the rss are locate at: http://feeds.booso.com/google http://feeds.booso.com/blog...

Refuse me? Think deep.

12:53 on Wednesday September 29, 2004 | 0 Trackbacks | 0 Comments

http://keke.vonye.com/index.php/archives/2004/09/29/102/trackback/

Google到底打算做什么 - 后搜索引擎时代的杀手锏

10:13 on Tuesday September 28, 2004 | 4 Trackbacks | 3 Comments

一个月前Topku曾经问我google最近有什么样的计划，google最近想干什么，我没有告诉他，只是告诉他一个新的计划也许会和微软进行正面的交锋。这一个月的局势变的更加明朗，我研究了差不多一个月的资料，觉得自己没有实力，也不可能在短时间内做出象样的产品出来，既然这样，不如共享在这里好了，谁有兴趣的话也许拉起一干人马趁着Google还没有发布Webos之前先做一个Porototype，也许还能赶上下一波Google和Microsoft的 OS 大战呢。以下是我写的一篇稿子的片断：后搜索引擎时代的杀手锏随着Google的上市，Google的季度报表将成为这个市场的晴雨表。在等待google下个季度的报表出来之前，我们似乎已经可以从已往两年的google从Adwords的收益中得出这样一个结论："搜索引擎市场正趋于饱和。"年初的IDC的一项调查能够很清晰的支持这样的结论，那就是已经有85％左右的企业正在或者准备使用搜索引擎的adwords进行商业宣传。而这样的一个比例只比去年的统计结果高了10％不到，这也就意味着未来的一段时间如果没有其它的商业模式，搜索引擎的利润来源也将不会有太大的改善。可以肯定一点，Google从诞生起就是一个创新的企业，这也就是为什么Google能够异军突起的原因。不过最近不断有评论指出Google在最近的两三年内除了收购了一些新兴公司外在搜索引擎技术上已经没有太多的创新了，其实这正是Google要转型的一个信号。让我们看看最近Google的一系列的动作： 1] 2003年的世界搜索大会上，Google第一次展示了Google神秘的Google file system，一种将千万台电脑链接在一起的一种超大文件系统。 2] 2003年2月，Google收购了全球最大的Blog服务商Blogger.com 3] 2003年底，Google收购了一家新兴的SNS公司Orkut.com 4] 2004年5月，Google收购了一家数字照片管理公司Picasa.com 5] 2004年5月，Google开始试验性的提供大小为1G的email系统gmail.com 6] 2004年Google从Bell lab挖走了Unix和C语言的创始人之一Ken Thompson。 7] 2004年起Google开始招收大量高水平Java程序员和OS开发员。 8] 2004年起Google正式支持Mozilla团对的开发，Mozilla是现在除了IE之外最流行的浏览器。从以上的一系列行动上可以看出： 1] Google 开始侧重网络应用 2] Google 开始测试／应用大文件系统(OS based) 如果单独看Google的文件系统和1G的Email的测试，也许还是孤立时间，但是接合Google有迹象进行的操作系统的开发，那么这一定不是一个孤立的事件了。 Webos Webos或者我们称为网络操作系统，是一种基于浏览器的虚拟的操作系统，用户通过浏览器可以在这个Webos上进行应用程序的操作，而这个应用程序也不是普通的应用程序，是网络的应用程序。举一个简单的例子，当我们要进行照片的处理时我们通常打开电脑，进入Windows操作系统，运行Photoshop程序来进行加工和操作。而在Webos上，我们是通过打开一个浏览器，登录到我们的一个虚拟的桌面上，运行Picasa这样的网络应用程序来进行照片的加工和处理。从用户的角度出发，两种运行方式在实际操作上不会有太明显的差别，唯一不同的地方就是Webos是运行在一个浏览器内。但是这点不同却能够导致根本性的变革，因为用户需求的将只是一个浏览器(我相信99%的计算机都已经安装了浏览器)，这个浏览器可以运行在Windows的操作系统上，也可以运行在Linux上，而且用户并不需要安装各种的应用软件，因为webos只要有一套的应用软件，所有连入这个系统的用户将都可以使用。让我们再回头看看Google的一系列动作，我们会看的更加清晰。Mozilla是IE外最流行的浏览器，被Google选择作为Webos的基础。在这点上因为Webos将对传统的OS例如视窗产生巨大的打击，可以无庸置疑，微软不会把心甘情愿地让Google用IE来武装自己。而测试1G的Gmail系统似乎也预示着Google在测试这样一个webos对用户而言网络存储取代本地存储的可能。而其它的几项网络的应用也正是在这样一个平台上已经或者将要运行的网络应用。由此可见，Webos完全能够成为Google在网络时代的下一个杀手锏，因为网络时代，我们需要网络OS。...

New spider from Yahoo.com

16:00 on Thursday July 1, 2004 | 0 Trackbacks | 1 Comments

For Chinese market, Yahoo launch www.yisou.com , which is mainly focus on China/Asia market. Just after Yisou.com launched, it seems they also start using a new kind of spider, which they even didn't give it name yet. web2.search.cnb.yahoo.com - - [22/Jun/2004:12:41:54 -0500] "HEAD /gmail HTTP/1.1" 200 - "-" "DeadLinkCheck/0.4.0 libwww-perl/5.69" This is the first day yahoo spider crawl the website but only check the "DeadLink" After that, it seems they spend 1 week to process the whole data and then remove the dead links and prepar for crawl the alive links. web8.search.cnb.yahoo.com - - [01/Jul/2004:15:35:16 -0500] "GET /广州环境污染问题 HTTP/1.1" 200 2108 "-" "Mozilla/4.0" This obviously a spider since it: 1] Only see these txt/html pages 2] No jpeg/flash and all other media loaded at the same time 3] Dig a website from link to link 4] the ip of this crawl locate: 北京市 Yahoo中国 The wired thing is that they didn't even give it a name, wish I can know the name soon....

Alexa API

17:25 on Wednesday June 9, 2004 | 0 Trackbacks | 2 Comments

All Alexa toolbar send request to data.alexa.com 80, here I give a short script to access data.alexa.com and get the XML output from alexa. Simulate the alexa toolbar: #!/usr/bin/expect spawn telnet data.alexa.com 80 expect -re "Escape" sleep 1 send "GET /data/TCaX/0+qO000fV?cli=10&dat=snba&ver=7.0&cdt=alx_vw%3D20%26wid%3D31472%26act%3D00000000000%26ss%3D1024x768%26bw %3D639%26t%3D0%26ttl%3D4907%26vis%3D1%26rq%3D23&url=http://blog.wespoke.com/ HTTP/1.1/n" send "Accept: */*/n " send "Accept-Encoding: gzip, deflate /n" send "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; .NET CLR 1.0.3705; Alexa Toolbar) /n" send "Host: data.alexa.com /n" send "/n" send "/n" interact Output from Data.alexa.com: Alexa.xml...

Funny thing about Google PageRank Prediction

15:27 on Monday May 31, 2004 | 0 Trackbacks | 0 Comments

Guys talking about the PR of google, and even there is a website predicte what PR will be when next time google update. http://www.rustybrick.com/pagerank-prediction.php please input www.itsallnet.com to check what is the result: Results: Your current Google PageRank is 8. Based on our calculations, we predict your future PageRank after the next Google update will be 10....

grab searching key words from refer system

14:08 on Wednesday May 26, 2004 | 0 Trackbacks | 0 Comments

Since there are around 10000 referreral request from all over the users who using my refer system, so, I can grab all these hot key words from the access log file. Up on this, we may know what topic will be the hottest one and what words going up and what going down. Beside this, since most of the searching engine record the previous searching words, so, these 2 words should have relation, by this we can find out the relation of these key words. The hot keywords of the day --go here!...

中文blog现状之扫描与商业展望

15:00 on Sunday May 23, 2004 | 0 Trackbacks | 0 Comments

刊登于上上期的《现代信息技术》杂志卢亮关键词： Blog 、blogger、User API、Mblog、Content Management 、e-learning Blog的概念在2002年进入中国以后，在短短的一年的时间里迅速增长。随着blog 托管网站的兴起，blog已经从单纯的抽象概念走向了一个被大众接受的一种媒体文化以及一种全新的网络文化及应用。现阶段中文blogger的数量保守估计应该在30万左右，而且以每天新增上千blogger的速度进入了高速增长期，可是数量不是质量，拥有30万中文blogger的中文blog市场，在商业方面仍然是非常初步的，如何在短期内从blog里面探索出一条商业道路来仍然是一个未知数。现状扫描中文blog从2003年末至现在，发展迅速，同时也随之而来出现了一些新情况，从现有的中文blog的现状来看，有如下的几个特点： • 托管服务风起云涌 • Blog服务的鱼目混杂 • 专业与无序并存 • 一些有益的尝试托管服务风起云涌：在2003年年底，中文blog只有3家托管服务，这三家都有超过1年的历史，是中文blog兴起的先行者。虽然这三家blog托管继续领导中文blog市场，可是已经在短短的几个月内涌现了近10家的blog托管网站。这些网站规模有大有小，提供的服务有好有差，但是无论如何，可以看得出，已经有越来越多的人注意到中文blog的市场了，认为这个将是一个很好的尝试，尽管谈起商业模式，现阶段基本上尚没有一家blog托管网站实现了盈利和短期内可以看到有盈利的可能。 Blog服务的鱼目混杂：Blog热导致了众多的门户网站纷纷建立了自己的blog服务，而这些服务，通常不过是一个发布系统再加上一个日历和一个能够供用户进行评论的留言功能。如果说这样的系统就是blog，显然有些强差人意了。这些门户网站依靠自己的用户资源，可以很轻松的将其所谓的“blog”的概念普及给他们的用户，可是blog内在的许多相关的概念例如Traceback，Rss，Creative Commons却都没有被采纳。可以预计，这样的一些系统，会为其用户带来一些负面的导向，因为我们已经听到了“blog不就是网络日记本么”这样的感慨。专业与无序并存：最初加入blog潮流的中文blog先行者，大都是一些媒体工作者，一些大学生以及一些IT从业人员。基本的blog的内容也集中在个人生活、学习的纪录，个人评论，以及追踪国外的IT新闻。这些都是很普遍的blog形式，然而这些blog却很难受到大众的关注，被媒体曝光的一定是这里面叛逆者，例如木子美以及竹影青瞳这样的以色情为基调的blogger 往往更能得到宣传媒体的厚爱，更能被发现“卖点”。在这样的气氛下，不免一些blogger会学习重复前面两位的路子，以期造成轰动效应，而不了解blog的人则对blog产生一个先入为主的有色印象，对中文blog的长期健康发展带来一些的隐患。一些有益的尝试：我们还是看到了一些有益的尝试，在blog的应用方面，一些中文用户已经开始利用blog 这种方便的发布方式来推广自己，建立了个人简历，以及个人新闻，或者个人相册，家庭作业等等。这些有益的尝试与blog这种网络应用的前后台服务的脱离有相当大的关系，只有当用户能否很方便的利用blog系统提供的API 来完成自己需要的界面，内容的设置，才真正的能够将blog的应用推广开。 blog应用的商业化除了blog加入商业元素外，blog本身的也因为其特点将会被更多的商业和非商业机构采纳，成为小型商业门户网络的解决方案。Blog对于非个人的应用也会随着中文blog的普及而产生而进入如下的一些领域： • 用于公司和团体的信息发布这个已经逐渐成个小型工作室或者人工作室（soho）的信息发布的首选解决方案。对于soho用户来说，建立网站的方案选择一直是一个棘手的问题，因为并不需要像大型公司可以建立单独的部门或者专人负责甚至将这部分外包给其它的专业公司，但是也需要能够有比较专业的信息发布系统，而不能采用类似个人主页的方式。而blog的user API（用户接口）就刚好为这类用户提供了一个良好的用户接口，并通过这些用户接口建立设置自己的接近专业设计的网站。 • e-learning上的学习 E-learning已经不是一个新鲜的概念了，随着文档的电子化和高速网络的普及，e-learning的概念又一次被挖掘了出来，而这一次e-learning显然要比2000年网络泡沫破碎前有了全新的提高，不但是因为internet已经在这4年里经过了更大的发展，而且在硬件和软件方面有了更加充分的准备。在国内已经出现了几个高中利用blog的资源，进行辅助教学，为学生和教师分别建立了各自的blog ，然后教师将教学要点和家庭作业公布在blog上，而学生将其家庭作业和学习心得写在blog 上，从而实现了无纸教学和教学上的互动。中文blog未来可以突破的几个方向对于现有的中文blog托管网站来说，可以说2004是一个机会与挑战并存的一年。2003年中文blog的突飞猛进的增长和各个门户网站的介入，不可避免带进入一些必要的整合和商业上的运作。对照国外的blog商业化操作，中文blog托管服务和商业网站，应该从以下3各方面着手： • 提供更加丰富的功能 • 手机blog以及短信blog • 加强blog市场的规范化管理提供更加丰富的功能：现有的中文blog服务商虽然都各有特色也拥有一些比较鲜明的特点，但是仍然缺少一些方便的User API。Blog的最流行的软件Moveable Type的缔造者Six Apart公司在最初为blog设计软件的时候就将用户接口作为一个最主要的特征来开发，从而在后面的几年内看到了明显的效应。现在的Moveable Type已经是最多商业blog用户采用的系统了。Six Apart公司的下一个侧重点是Content Management（内容管理），这也给国内的blog服务商一个提醒，也许，内容管理将成为未来商业blog能否成功的一个关键。手机blog以及短信blog：随着能够拍照的手机的流行，手机blog（mblog，mobile blog）将无可非议的成为一种新的blog方式。手机blog就是采用手机进行拍照，然后将图片配以简单的说明直接发布在自己的blog上。与之相相仿，短信blog是通过手机将短信息直接发布在blog 上。当blog用户在旅游，遇到突发事件的时候，不能接触网络，或者是需要发布一些实时的消息时，这种依靠手机进行发布blog的形式无疑是一次革命，而且更加方便和适合新闻媒体工作者和旅游者。加强blog市场的规范化管理：现在的中文blog仍然是一种用户自由发布的状态，因为从以往的经验看出，这些单个blogger 常常会影响到整个网站的稳定运行以及托管服务的抗击风险的能力。其中不乏有一些blogger的内容会给社会带来负面和消极的影响，甚至部分的blogger的内容会给国家和集体的利益带来损害，这是一个遵纪守法的公民所不愿意看到的。当然，blog的应用和发展也会出现在其它的方面，因为一旦进入商业模式，一切的发展都是按照市场的需求作为导向的。在中文blog逐渐普及的今天，本文虽不能将整个中文blog面临的问题和机遇一一详述，但是希望能够做到窥一斑可见全豹，为中文blog的发展提个醒。...

Searching result scripts

11:25 on Wednesday May 19, 2004 | 0 Trackbacks | 0 Comments

Thanks for Chedong, I remade the script he suggested to me and generate a new script which can find out the keywords and make a easy stastic from access_log: The searching result for this website seems really funny and we do can find sth interest here: Searching result of wespoke.com. Here is script #!/bin/bash #NAME="access_log.`date +%m-%d-%y`" NAME=$1 grep baidu.com/baidu $NAME > baidu.search cat baidu.search | gawk ' { print $7 } ' | sort | uniq > list.search cat baidu.search | sed "s// /#/g" > baidu.tmp mv baidu.tmp baidu.search echo "" echo "===============Baidu===============" for VAL in `cat list.search` do COUNT=`grep "#$VAL"# baidu.search | wc -l ` echo "[$COUNT] http://blog.wespoke.com/$VAL" echo "" grep "#$VAL"# baidu.search | tr "#" ' '|awk '{print $11}' | perl -pe 's///x(/w+)/%/1/gi' |perl -p -e 's/%(..)/pack("c", hex($1))/eg' | perl -pe 's/(.*)?(word=(.*?))[&"].*/$3/gi' > keys.search for VAR in `cat keys.search | sort | uniq ` do KEYCOUNT=`grep $VAR keys.search | wc -l ` echo "[$KEYCOUNT]$VAR||" done echo "" done rm baidu.search list.search keys.search echo "===============Google===============" NAME="access_log.`date +%m-%d-%y`" grep google.com $NAME > google.search cat google.search | gawk ' { print $7 } ' | sort | uniq > list.search cat google.search | sed "s// /#/g" > google.tmp mv google.tmp google.search for VAL in `cat list.search` do COUNT=`grep "#$VAL"# google.search |grep search | wc -l ` echo "[$COUNT] http://blog.wespoke.com/$VAL" echo "" grep "#$VAL"# google.search | grep search | tr "#" ' ' | awk '{print $11}' | perl -pe 's///x(/w+)/%/1/gi' | perl -p -e 's/%(..)/pack("c", hex($1))/eg' | perl -pe 's/(.*)?(q=(.*?))[&"].*/$3/gi' | jv-convert --from utf-8 -to gb18030 > keys.search for VAR in `cat keys.search | sort | uniq ` do KEYCOUNT=`grep $VAR keys.search | wc -l ` echo "[$KEYCOUNT]$VAR||" done echo "" done echo "===============3721===============" grep 3721.com $NAME > 3721.search cat 3721.search | gawk ' { print $7 } ' | sort | uniq > list.search cat 3721.search | sed "s// /#/g" > 3721.tmp mv 3721.tmp 3721.search echo "" for VAL in `cat list.search` do COUNT=`grep "#$VAL"# 3721.search | wc -l ` echo "[$COUNT] http://blog.wespoke.com/$VAL" echo "" grep "#$VAL"# 3721.search | tr "#" ' '|awk '{print $11}' | perl -pe 's///x(/w+)/%/1/gi' |perl -p -e 's/%(..)/pack("c",hex($1))/eg' | perl -pe 's/(.*)?((p|name)=(.*?))[&"].*/$4/gi' > keys.search for VAR in `cat keys.search` do echo "$VAR||" done echo "" done echo "===============Yahoo===============" grep search.yahoo.com $NAME > yahoo.search cat yahoo.search | gawk ' { print $7 } ' | sort | uniq > list.search cat yahoo.search | sed "s// /#/g"...

Gmail, should be blocked?

13:30 on Monday April 19, 2004 | 0 Trackbacks | 1 Comments

Google obviously have more ambition than anyone else. 1G capacity Gmail have been lunched for more than one month and there are thousands of posts in internet talking about Gmail, however, there is no clue from Google it's self. Google just keep it in dark or just an April fool joke? Search gmail using google, the google ADV bar will show a like: Should Gmail be blocked... it is a survey, and I didn't check the result, but google the result of gmail it's self is really a joke....

Google Loses Tabs In New Look, Gains Web Alerts & Personalized Search Results

15:10 on Monday March 29, 2004 | 0 Trackbacks | 1 Comments

News Item...

differential search engine

16:58 on Thursday March 11, 2004 | 0 Trackbacks | 1 Comments

What google search for a item, while differential search engine will search the difference between the two information. Example: A-->B realation is 50% B-->C realation is 40% and there is no chains connect from A-->C, the only connection from A---->C is A-->B-->C, so the realation of A---->C is 50%*40%=20%. The engine caculate the realationship of A-->B B-->C and A---->C is realation search engine. then what is diff-engine: differential search engine will caculate the difference of the B-A and B-C, which will be useful when you want know what is the difference between the very similary information. Example, if you go to www.froogle.com to check sth, you may cmpare the price, but anything else? sure, you also wahnt compare the color, the functions, the features,..... many thing you need compare. So, you know one thing differential search engine can do? :-D It can do more. I am busy in designing it, hopefully I can release the full engine in middle of this year. Liang 3-10-2004...

What a stupid Google API

17:27 on Thursday February 19, 2004 | 0 Trackbacks | 1 Comments

2nd step meet some error, what a stupid google API, not alow me to connect directly with a WIRED HTTP_AGENT!!! 403 ForbiddenGoogle Error ForbiddenYour client does not have permission to get URL /search?q=%E5%8D%9A%E5%AE%A2&num=100&hl=zh-CN&lr=lang_zh-CN%7Clang_zh-TW&ie=UTF-8&oe=UTF-8&c2coff=1 from this server. (Client IP address: 129.119.200.36) Please see Google's Terms of Service posted at http://www.google.com/terms_of_service.html If you believe that you have received this response in error, please send email to forbidden@google.com. Before sending this email, however, please make sure to take a look at our Terms of Service (http://www.google.com/terms_of_service.html). In your email, please send us the entire code displayed below. Please also send us any information you may know about how you are performing your Google searches-- for example, "I'm using the Opera browser on Linux to do searches from home. My Internet access is through a dial-up account I have with the FooCorp ISP." or "I'm using the Konqueror browser on Linux to search from my job at myFoo.com. My machine's IP address is 10.20.30.40, but all of myFoo's web traffic goes through some kind of proxy server whose IP address is 10.11.12.13." (If you don't know any information like this, that's OK. But this kind of information can help us track down problems, so please tell us what you can.)We will use all this information to diagnose the problem, and we'll hopefully have you back up and searching with Google again quickly! Please note that although we read all the email we receive, we are not always able to send a personal response to each and every email. So don't despair if you don't hear back from us! Also note that if you do not send us the entire code below, we will not be able to help you.Best wishes,The Google Team/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/ mLlMaoc972-F3-oktovThuIuyY-tHcUyIG560OlOgFIGT2X9h APWGoy6NSkTDa4oYhzojFLnLZZa6uuJvZA2Ws2k8WLbFE11KV gwNLqfx0A2f7-j0ZCHmAjbhqZhDjtkqhDWoctCAbVzmJBZWrD j_TV0zhs9rXw7qP82xjMqHzhRBJX4TNj5f_KukYFHVdbSjrBT seg6uGBypibuTNGSeLem7wrlT2Fp2zL6GRLA4cSrs-BJ4zOoD OOyO9QzS8v8wMPgaSiy6xKqDOdZlAEA4sCT7GBDsDRDEo-W82 ZTXCPTGPlouZB7fNv_pn9PjgCPwgr1DoCKmtWIEDXIIjPIMGP 7z3ZigVqUFMf44U3Mc-HYuNYLeRIypXCT_kpjOX7B1Etbsg== +/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+/+ Have to fraud one: Change HTTP_AGENT to : Mozilla/9.0 (compatible; MSIE 6.0; Windows NT 5.0) Have you ever think there is one browser name is Mozilla/9.0 ? ha, but it works....

Homemade web Crawl robot

17:17 on Thursday February 19, 2004 | 0 Trackbacks | 0 Comments

If you found a refer from http://blog.wespoke.com, which not necessary mean I visited your wesite, it maybe visited by my crawl :) I am tired of working today, so for relax, I code a small crawl, which attache my own HTTP_Agent and REFER to crawl the whole website. Example, My crawl will show such log in your /var/log/httpd/access_log "luliang.dhs.org - - [19/Feb/2004:16:29:54 -0600] "GET / HTTP/1.0" 200 20945 "http://blog.wespoke.com/" "Power by LiangLu at Differential Technology"" It means that refer from "http://blog.wespoke.com/", but it is not, Haha, a nice promotion method. And I reset the browser type to "Power by LiangLu at Differential Technology" , en, my crawl works great now. So, what is the next? 1] Write a API connect to Baidu.com , download the all top 1000 search result of XXX, and craw all of these website. 2] Write API connect to Google.com, get the same thing. 3] Just relex :D...

Google spurns Rss

13:03 on Tuesday February 17, 2004 | 0 Trackbacks | 1 Comments

Google spurns RSS for rising blog format - News - ZDNet...

Google的丧钟谁来敲响〖5〗

7:38 on Thursday January 29, 2004 | 0 Trackbacks | 0 Comments

6】如何提高网页在搜索引擎里的排名？这个问题非常难回答，因为一旦一种方法合适被搜索到後，搜索引擎会相应做出调整，来降低被Hack的可能性。比较有参考价值的网站有：www.google8.com，和大秦科技。这里我来简单总结一下，主要针对blog系统，或者任何的多用户系统 1] URL 的友好化 http://blog.wespoke.com 要强于 http://www.wespoke.com/blog 要强于 http://www.wespoke.com/user.cgi?user=lul 就是简明，尽量采用二级域名 2] 静态网页好于动态网页 html > php > cgi > asp/jsp 尽量制作固定的 html 页面 3] title 和 meta 要完整。 meta keywords 很关键。 title 和 meta 是google要作为权重的考虑方面。 Baidu只考虑 title，不将 meta 计算在内 4] 网页设计不要太多的 frame 5] 其它参考前面我的一些观点。...

Google的丧钟谁来敲响〖4〗

16:20 on Friday January 16, 2004 | 0 Trackbacks | 1 Comments

以Google和百度代表的搜索引擎都严重依靠爬虫，因此我还要花大量的篇幅来讨论爬虫（机器人）的一些特点。在下一代的搜索引擎设计里，将尽量避免出现爬虫，这样将会避免现在Google类搜索引擎设计上的严重缺陷。 5】爬虫喜欢什么？ 1]从数量上看，一个网页的大小如果超过150K，基本上超出部分将不会被爬虫吃到。 2]从文件类型上看，Html>cgi>php>asp/jsp。爬虫对不同的flavour有不同的偏好，如果一个网页嵌入过多的jsp/asp，爬虫将不会进行触发。正如cgi相对容易触发一样，越静态的界面，爬虫越喜欢。 3]从叶面联接上看，如果一个叶面上有超过100个以上的连接出去，这个叶面重要度也会被大大的降低。 4]url 深度越深，爬虫越不易爬到。因此，对于老式的搜索引擎（上一代搜索引擎）而言，采用[1]静态html叶面，[2]叶面尽量控制在50K以内（文字），[3]单个叶面内联接不要超过50个，[4]Url要短小，尽量采用2级域名而不是延伸Url。 6】爬虫的致命缺陷/robot feed program 因为爬虫在抓叶面的时候，同时携带了 HTTP-AGENT的标签，例如前面的例子： crawler11.googlebot.com - - [08/Jan/2004:04:04:54 -0600] "GET /blog/archives/000010.html HTTP/1.0" 200 8953 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 这里"Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 就是HTTP-AGENT标签。根据这个标签可以黑客可以很容易欺骗爬虫，导致爬虫抓到的网页不具有真实性。具体做法如下：当爬虫向httpd server send a request的时候，httpd嵌入的模块（黑客模块，我自己命名叫 robot feed program）检测http-AGENT是否是搜索引擎的爬虫，如果不是，就将请求转交正常的httpd来应答，如果是来自爬虫，那么就将已经准备好的另外一个比较Search friendly的叶面送给爬虫。爬虫欢天喜地的回去了，却不知道得到的却是假叶面。采用本方法进行一定程度上的欺骗，对于搜索有无以轮比的优越性，因为通常的网页的[网页信噪比（Significant）]都很低，而且里面包括了很多没有用处的词语，这些词语全是背景项，几乎永远不会被搜索到。因此设计一个良好算法，提高网页的[网页信噪比（Significant）]应该是最关键的了。...

Google的丧钟谁来敲响〖3〗

16:34 on Wednesday January 14, 2004 | 0 Trackbacks | 4 Comments

4】网页信噪比（Significant）一个网页针对不懂的搜索词有一个信噪比的概念，信噪比Significant的定义如下： Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb) Ns为被搜索词出现的次数，Nb是背景项，是指总共这个网页里包含的词汇量。这是针对单个搜索词语而言的，如果针对多个词语，通常是采用 Sig=Sigma(Sig_i)，这个Sig_i是第i个词汇的信噪比。下面举一个例子，例如在Baidu里搜索“博客”这个词，“博客中国”列在最前面，除了Pageranking的影响外，最主要的就是这个网页的信噪比比较高，大约是博客动力的几倍。再举一个例子：百度搜索个人年终总结，拍名第一的就是这里了，其原因不是本站Pageranking很高（本站是0／10，几乎低的不能再低了），而是因为信噪比很高。...

Google的丧钟谁来敲响〖2〗

16:23 on Wednesday January 14, 2004 | 1 Trackbacks | 1 Comments

3】更新率通常比较好的网站的爬虫能够在合适的时间进行爬网，因为很容易可以从IP上判断一个主机的实际地址，一般的爬虫都安排在当地时间的凌晨2-5点爬主要的网页。对于一个经常更新的网站，设计良好的爬虫会定期来爬，时间间隔不会超过两天。在这里面有一个定义：[更新率]，是[月更新的网页/全部的网页]，如果这个数字比较大，则表明这个网站维护和更新比较快，会受到爬虫很好的重视。在搜索引擎的竞争中，爬虫占很大的比重。因为爬虫是搜索引擎最直接的信息来源。但是过渡的爬虫则会影响到主机的性能，也会造成网路阻塞。Googbot宣称不会在15秒钟送出两只以上的爬虫，而Baidu则丝毫没有顾及这个，Baidu的爬虫常常是一分钟内往一个网站送交几百，甚至上千只，对于多域名Hosting的主机，常造成主机瘫痪。因此有网站在/robot.txt 里限制了爬虫的范围。比较好的一个例子是一个中等网站的爬虫与访问量的关系是1/50的关系。那么什么会影响到爬虫访问的次数呢？除了上面谈到的[更新率]和以后要谈到的Pageranking外，还有一个不为大家重视的就是主机的反应速度网站的稳定性。主机的反应速度直接影响到爬虫的效率，如果反应过慢，爬虫没有拿到数据，爬虫会认为这个网页的参考价值不高，并短时间内不会更新。稳定性更可怕，如果一个网站down一天，这一天里爬虫都没有access host，那么接下来的几天里爬虫数目会骤减，因为任何一个搜索引擎不希望将用户导向到一个联接不上的网站。爬虫未来也会送一两只过来探测网站是否正常，如果一切恢复了，仍然需要一段时间才能和爬虫建立友好关系，大约要1，2周德时间才能完全在搜索引擎上恢复到原来的位置。...

Google的丧钟谁来敲响〖1〗

12:37 on Monday January 12, 2004 | 1 Trackbacks | 2 Comments

从98年我使用Google起就一直对它抱有非常大的信心，看到今天google的规模和技术，感觉到高兴又有一些失望，因为5，6年过去了，google的新技术越来越少了，能让我感觉到兴奋的东西越来越稀有，虽然我每天还是依靠google来查询资料，不过，google的确应该淡出搜索舞台了。在我准备正式进军搜索引擎市场之前，我希望写一系列的文章来表明我的观点和一些研究的技术（当然最新的技术我是不会在这里说出来的，但是就这里要谈到的技术也足够让google噎死。呵呵，开个玩笑，别当真） 1】网络搜索引擎网络搜索引擎主要由网络机器人（Robot）、索引数据库和查询服务三个部分组成。网络机器人对互联网资源进行遍历，尽可能多地发现并采集新的信息；采用全文检索技术对采集到的信息建立索引存到索引数据库中，能够极大地提高信息检索的速度；查询服务接收并分析用户的查询，即将用户查询作为数据库提问式，根据一定的的匹配策略，如布尔模型、模糊布尔模型等方法遍历索引数据库，最后将达到一定的匹配程度的结果（包括标题项，简单文摘和链接地址）集合返回给用户。 2】Google的爬虫 Robot有各种定义，google定义为googlebot，就是Google+Robot的意思。下面看一个爬虫的例子： crawler11.googlebot.com - - [08/Jan/2004:04:04:54 -0600] "GET /blog/archives/000010.html HTTP/1.0" 200 8953 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)" 在2004年一月八日，来自crawler11.googlebot.com的爬虫抓取了我老站「http://luliang.dhs.org」里的/blog/archives/000010.html这样一个文档。在HTTP-Agent部分，显示了Googlebot/2.1 是版本号。通常一台高效能的crawler服务器，每天可以送出5000万只爬虫，我纪录到的送爬虫的服务器，从crawl1-crawl37，2003年十月以后，google将之更名为crawler1-crawler37，一共是37台。这样计算的结果是每天可以抓取网页20亿，不可谓不大。这个是今天早上的爬虫爬网站的纪录： crawler15.googlebot.com - - [12/Jan/2004:00:48:06 -0600] "GET / HTTP/1.0" 200 20780 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"...