中文分词和搜索引擎
jackfirst86
这个作者很懒,什么都没留下…
展开
-
一个基于搜索的中文分词方法( A Search-based Chinese Word Segmentation Method)
<br />A Search-based Chinese Word Segmentation Method<br /> 一个基于搜索的中文分词方法<br /> <br />ABSTRACT<br /> In this paper, we propose a novel Chinese word segmentation method which leverages the huge d翻译 2011-05-18 16:25:00 · 1089 阅读 · 0 评论 -
ME, HMM, MEMM, CRF
<br />最大熵模型 Maximum Entropy<br />现从一个简单例子看起:<br />比如华盛顿和维吉利亚都可以作人名和地名,而从语料中只知道p(人名)=0.6,那么p(华盛顿=人名)的概率为多少比较好呢?一个直观的想法就是p(华盛顿=人名)=0.3。为什么呢?这就是在满足已有证据的情况下不做任何其他假设,也就是熵最大,这就是最大熵模型的原理。<br />现在来看模型的定义:<br />首先,明确模型的目标:给定一个上下文x,估计p(y|x)<br />接着,从训练样本中我们可以得到一串标注过转载 2011-05-18 18:01:00 · 983 阅读 · 0 评论 -
基于CRF的中文分词
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:•分词(标注字的词位信息,由字构词)•词性标注(标注分词的词性,例如:名词,动词,助词)•命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)本文主要描述如何使用CRF技术来进行中文分词。CRF VS 词典统计分词•基于词典的分词过度依赖词典和规则库,因此对于歧义词和未登录转载 2011-05-18 17:43:00 · 527 阅读 · 0 评论 -
搜索引擎技术揭密:中文分词技术
<br />信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。<br /> 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究转载 2011-05-18 17:11:00 · 454 阅读 · 0 评论 -
隐马尔科夫模型HMM学习(三)
找到可能性最大的隐含状态序列崔晓源 翻译多数情况下,我们都希望能够根据一个给定的HMM模型,根据观察状态序列找到产生这一序列的潜在的隐含状态序列。1、穷举搜索方法我们可以通过穷举的方式列出所有可能隐含状态序列,并算出每一种隐状态序列组合对应的观察状态序列的概率。概率最大的那个组合对应的就是最可能的隐状态序列组合。Pr(observed sequence | hidden state combination).比如说上图中的trellis中,最有可能的隐状态序列是使得概率:Pr(dry,damp,soggy转载 2011-05-18 18:00:00 · 686 阅读 · 0 评论 -
最大熵模型文献阅读指南
<br />最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)都有比较好的应用效果。张乐博士的最大熵模型工具包manual里有“Further Reading”,写得不错,就放到这里作为最大熵模型文献阅读指南了。<br /> 与《统计机器翻译文献阅读指南》不同,由于自己也正在努力学习Maximum Entropy Model中,没啥发言权,就不多说废话了。这些文献在Google上很容易找到,不转载 2011-05-18 17:53:00 · 521 阅读 · 0 评论 -
一种规则和统计相结合的分词算法
<br />一种规则和统计相结合的分词算法<br />转载 2011-05-18 17:03:00 · 532 阅读 · 0 评论 -
百度搜索引擎详解
<br /><br />今天无意中读到的,网上转载很多了,不过还是忍不住在转载一番,不过原文就找不到了,读得有点累,但是多少有点启发了,推荐一下。<br />查询处理以及分词技术<br />随 着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向 人们证明了网络所蕴藏的巨大商转载 2011-05-18 16:41:00 · 1068 阅读 · 0 评论 -
中文分词和搜索引擎
<br />作者:Winter 工程师<br />搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《互联网调查报告》显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中非常重要的模块,这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也就不存在分词问题。和中文搜索引擎类似还有日文、韩文、泰文搜索引擎等,都需要处理分词问题。<br />为什么需要中文分词<br />目前的搜索引擎,转载 2011-05-18 16:37:00 · 486 阅读 · 0 评论 -
隐马尔科夫模型HMM学习(一)
介绍崔晓源 翻译我们通常都习惯寻找一个事物在一段时间里的变化规律。在很多领域我们都希望找到这个规律,比如计算机中的指令顺序,句子中的词顺序和语音中的词顺序等等。一个最适用的例子就是天气的预测。首先,本文会介绍声称概率模式的系统,用来预测天气的变化然后,我们会分析这样一个系统,我们希望预测的状态是隐藏在表象之后的,并不是我们观察到的现象。比如,我们会根据观察到的植物海藻的表象来预测天气的状态变化。最后,我们会利用已经建立的模型解决一些实际的问题,比如根据一些列海藻的观察记录,分析出这几天的天气状态。Gener转载 2011-05-18 17:57:00 · 1604 阅读 · 0 评论 -
N-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的转载 2011-05-19 08:12:00 · 1535 阅读 · 0 评论 -
基于隐马尔科夫模型的中文分词研究
<br />基于隐马尔科夫模型的中文分词研究<br /> 魏晓宁<br /> (南通大学计算机科学与技术学院,江苏南通226019)<br />摘要:一直以来,汉语自动分词是公认的汉语信息处理瓶颈。反思现有汉语自动分词技术,发现均有隐舍两大假设:语言是规律的、词具有转载 2011-05-18 17:56:00 · 2341 阅读 · 0 评论 -
最大熵模型:读书笔记
<br /><br />最大熵模型:读书笔记<br /> <br /> 胡江堂,北京大学软件学院<br />1. 物理学的熵<br />2. 信息论的熵<br />3. 熵和主观概率(一个简单注释<br />4. 熵的性质<br />4.1. 当所有概率相等时,熵取得最大值<br />4.2. 小概率事件发生时携带的信息量比大概率事件发生时携带的信息量多<br />转载 2011-05-18 17:55:00 · 875 阅读 · 0 评论 -
自动分词算法的分类
<br />我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。<br />1、 基于字符串匹配的分词方法<br />这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。<br />按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为转载 2011-05-18 17:08:00 · 914 阅读 · 0 评论 -
Conditional Random Fields(CRF)
<br /><br />原文:http://www.inference.phy.cam.ac.uk/hmw26/crf/<br />写的不错,有空翻译过来。<br /><br />This page contains material on, or relating to, conditional randomfields. I shall continue to update this page as research onconditional random fields advances, s翻译 2011-05-23 16:39:00 · 2471 阅读 · 0 评论