大家好依旧是我上海SEO(SWJ) ,前段时间一直有网友问我 关于分词方面的内容,特别是中文分词再百度中的使用,前端时间SWJ写过2篇关于分词技术的文章 如果你没看过 我推荐你看下。
这2篇分别是:《什么是中文分词?对SEO优化有什么帮助?》 和 《在seo的应用中与分词之间的作用!》
接下来 我们就来以说教的方式 详细的了解下分词技术! 文章也是网络上看到的 SWJ自己做了部分修改与补充!
随着信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yahoo、最近新出的网易的有道 等大型搜索引擎一直是人们讨论的话题。
随着搜索市场价值的不断增加,越来越多的公司开发出属于自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点之一。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)、和最近刚出的 有道(http://www.youdao.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。但是SWJ认为其技术能力等方面还是相差国外先进水平有一定的距离 不过,这距离在慢慢的拉近中! 谈到搜索引擎的分词技术之所以能形成现在这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同。
什么是中文分词?
这2篇分别是:《什么是中文分词?对SEO优化有什么帮助?》 和 《在seo的应用中与分词之间的作用!》
接下来 我们就来以说教的方式 详细的了解下分词技术! 文章也是网络上看到的 SWJ自己做了部分修改与补充!
随着信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、yahoo、最近新出的网易的有道 等大型搜索引擎一直是人们讨论的话题。
随着搜索市场价值的不断增加,越来越多的公司开发出属于自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点之一。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com)、和最近刚出的 有道(http://www.youdao.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。但是SWJ认为其技术能力等方面还是相差国外先进水平有一定的距离 不过,这距离在慢慢的拉近中! 谈到搜索引擎的分词技术之所以能形成现在这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同。
什么是中文分词?
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。
例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能
很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。
我是一个学生,分词的结果是:我 是 一个 学生。
中文分词和搜索引擎关系与影响!
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果
没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接
影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很
多问题。
小谈&#x