分词算法
文章平均质量分 77
fdvfdvdxv
这个作者很懒,什么都没留下…
展开
-
英文分词算法(Porter stemmer)
题记最近需要对英文进行分词处理,希望能够实现还原英文单词原型,比如 boys 变为 boy 等。简介发现一个不错的工具Porter stemmer,主页是http://tartarus.org/~martin/PorterStemmer/。它被实现为N多版本,C、Java、Perl等。下面是它的简单介绍:Stemming, in the parlance of se转载 2012-06-11 16:04:57 · 831 阅读 · 0 评论 -
我自己设计的中文分词算法
我不是搞搜索专业的,当时毕设做了个简单的分词算法,就放到blog上。没想还有挺多人感兴趣的,记得那天点击量忽然达到2000(当时我的日点击量也就200),很多做搜索的人找我,说思路不错。也许我这辈子再也不搞搜索了,就把这篇文章放这留个纪念吧。xiecc于2006年2月11日最近折腾毕业论文,搞得人没心情写blog了。于是觉得不如把毕业论文里的东西贴出来当blog算了。这里主要介绍了我自转载 2012-06-11 16:40:40 · 1017 阅读 · 0 评论 -
中文分词基本算法主要分类
中文分词基本算法主要分类基于词典的方法、基于统计的方法、基于规则的方法、(传说中还有基于理解的-神经网络-专家系统,按下不表)1、基于词典的方法(字符串匹配,机械分词方法)定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想转载 2012-06-11 16:37:42 · 911 阅读 · 0 评论 -
分词算法
自动分词算法的分类我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆转载 2012-06-11 16:34:07 · 2360 阅读 · 0 评论 -
目前主流的中文分词算法
目前主流的中文分词算法有: 1、 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结转载 2012-06-11 16:28:54 · 1305 阅读 · 0 评论 -
百度分词算法剖析
理解分词技术对Seo工作具有极大意义,可以从科学的角度来分析关键词,并构想关键词部署策略.对此很多Seo朋做过实验。以下是转载的某SEO朋友的文章。供参考。稍后我会分享自己的测试结果。查询处理以及分词技术如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI转载 2012-06-11 16:27:21 · 1340 阅读 · 0 评论 -
N-最短路径分词算法
NSP分词算法是句子粗分的基本算法,在中科院计算所的文章中有详细描述。但是看了不甚明白,今天实现了这个算法,主要用的还是图论的基本算法Dijkstra算法。将分词转化为图的最短路径问题假设要切分一下句子 :主席出现在这里。可将其转化为以下的图:从而,找出这个句子的最短切分的问题就可以转化为找出上图的0-->7最短路径的问题。这里所有边的权值都是1。Dijkstra最短路转载 2012-06-11 16:25:45 · 477 阅读 · 0 评论 -
百度和谷歌分词的差异【上】
这些天,我将陆续写一些关于百度和谷歌在分词上的差异化现象及个人见解。当然由于百度和谷歌搜索引擎分词算法都是各自的绝密技术,并且算法都是相当的复杂。我们只能从一些搜索结果对比中,去猜测和揣摩。文章仅供大家参考1.符号检索差异百度把大部分符号都默认设置为stop words了,假设你只是提交一个”@“符号进行查询,那么百度会返回一条”抱歉,您输入的内容“@”不在查询范围内。“的信息!转载 2012-06-11 16:25:43 · 2946 阅读 · 0 评论 -
思路解密:SEO搜索中文分词算法原理
SEO搜索中文分词算法原理实战教程,如果一个人想成为一个合格的SEO人员,那么搜索引擎分词思维是必须掌握的,因为只有掌握了分词思维,你才可以做出搜索引擎喜欢,而且用户也喜欢的网页,虽然在梦想之旅视频教程中有和大家分享过搜索引擎中文分词原理,但没有完全的,系统的用文字版本和图片版本和大家分享,那么顾芳源就带大家如何正确学习SEO搜索分词思维吧。 搜索引擎中文分词原理 首先我们要知道是把每转载 2012-06-11 16:18:46 · 1330 阅读 · 0 评论 -
关于MMSEG分词算法
关于MMSEG分词算法2011-02-02 13:54MMSEG是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。由于它的简易直观性,实现起来不是很复杂,运行速度也比较快。关于算法的原文,可以参 见:http://technology.chtsai.org/mmseg/总的来说现在的中文分词算法,转载 2012-06-11 16:15:50 · 493 阅读 · 0 评论 -
蒋鑫鹏:百度搜索算法总结—关键词分词算法
一、关于中文分词:1.中文分词难度分析 首先要说明下的是:普通用户的搜索与做SEO或者更大说熟悉网络搜索用户的搜索习惯是非常不一样的,而恰巧普通搜索用户是百度搜索的基础力量。在开头赘述这一点是蒋鑫鹏为了表达其对于百度搜索算法中的中文分词的重视。因为,对于百度google这样的第二代搜索引擎来说,采用的检索技术主要是依靠关键字来匹配的,而用户对于关键词的理解与机器程序对于关键词的理解是转载 2012-06-11 16:12:50 · 4531 阅读 · 0 评论 -
【分词】正向最大匹配中文分词算法
中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(Maximum Matching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种转载 2012-06-11 17:04:24 · 498 阅读 · 0 评论