
搜索引擎的那些事
搜索引擎的那些事
嵌入式-老费
计算机科班出身,09年研究生毕业即投入嵌入式开发工作,欢迎付费咨询,微信联系:xiaoxing_fei。
展开
-
搜索引擎的那些事(开篇)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 说起搜索引擎,大家肯定都不陌生。至少对于我来说,每日百度的次数不下几十次。在信息的查询和搜索方面,百度帮了我很大的忙,当然这中间也有很多搜索结果我也不是很满意。那么不知道大家有没有兴趣知道搜索引擎是怎么做出来的?其实说简单也简单,说复杂也复杂。 大家知道,网络搜索结果都是按照网页原创 2012-11-07 20:56:30 · 5861 阅读 · 3 评论 -
搜索引擎的那些事(多线程web遍历)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 上面一篇博客当中,我们可以利用单一的线程完成网页的下载。今天,我们打算在此基础上完成多线程的访问和加载操作。使用多线程,倒不是因为这项技术有多牛,主要是因为我们想利用多线程的访问机制,充分利用线程的阻塞时间,这样可以在单位时间内完成更多的下载操作,这样至少可以帮助我们提高一部分效率。原创 2012-11-25 18:17:57 · 4538 阅读 · 7 评论 -
搜索引擎的那些事(网页下载)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 前面我们只是开了一个搜索引擎的头,下面我们就要对搜索引擎的各个内容进行分析和解剖了。当然,我们这里可以扯一些别的东西。其实,在中国现在的互联网市场,搜索引擎的网站其实已经很多了,除了大家熟悉的百度、谷歌,还有很多其他门户网站开发的搜索引擎,这其中就包括搜狗、有道、搜搜之类的。当然,除原创 2012-11-11 21:52:16 · 7783 阅读 · 9 评论 -
搜索引擎的那些事(title信息提取)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 前面我们在谈到搜索引擎的时候,说到了网页下载、说到了分词、说到了多线程。但是,我们要清楚这一切的目的都是为了在网页中获得重要的信息。如何从网页或者从链接中获取信息是我们必须要解决的问题。一般来说,一个网页中包含了很多内容,比如说html文件结构、广告、图片等等。但是哪些才是我们真正原创 2012-11-27 22:31:33 · 4338 阅读 · 1 评论 -
搜索引擎的那些事(中文分词)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 前面,我们在介绍搜索引擎的时候也谈到过中文分词。和英文不一样,中文上所有的汉字都是连在一起的,所以我们的一项工作就是把这些词语拆分成一个一个词组。因为只有这样才能构建索引数据库、才能查找索引,我们构建搜索引擎的工作才能继续进行下去。 现在关于中分分词有好多的分词方法,什么从左向右原创 2012-11-13 22:40:30 · 10018 阅读 · 8 评论 -
搜索引擎的那些事(摘取价格数据)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 下载网页不难,提取数据其实也不难。前面,我们说到了如何在当当网页中提取title。当然了,不仅仅是当当网页可以提取title,几乎所有的网页都可以提取标题。因为当当是一家电商网站,所以基本上其标题信息和它卖的商品是分不开的。但是,现在我们已经不满足于此了,我们还想从网页中提取价格信息,原创 2012-11-29 22:14:23 · 3370 阅读 · 4 评论 -
搜索引擎的那些事(32位MD5算法)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 对于学过密码学的同学来说,md5算法肯定不会很陌生。但是,对于我来说,md5是一个新的命题。那什么是md5呢?md5就是对已有的数据进行加密处理。当然,它还有别的用处,什么呢?比如说,可以验证下载的软件是否完整,可以验证保存的字符串是否发生重名等等。我在这里提到这个算法,主要是为了后面原创 2012-12-02 19:22:29 · 9433 阅读 · 18 评论 -
搜索引擎的那些事(web遍历)
【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing @163.com】 写搜索引擎对我来说是一件有趣的事情,做的多好谈不上,但是至少可以一步一步做出来。当然做的怎么样,还得大家来判断了。在开始今天的话题之前,我们可以扯一些别的东西。什么东西呢,其实就是搜索引擎的一些衍生产品,很有意思。 现在的网页中有很多的信息,这里包括的内容很多。除了一般我们大家知原创 2012-11-18 22:55:59 · 6182 阅读 · 9 评论