搜索引擎
文章平均质量分 68
lengyuhong
大学生,经历温州大学和浙江工业大学,现在淘宝数据平台实习,喜欢的领域:关联智能推荐,海量数据处理,搜索引擎
展开
-
基于隐马尔科夫模型的中文分词研究
基于隐马尔科夫模型的中文分词研究 魏晓宁 (南通大学计算机科学与技术学院,江苏南通226019)摘要:一直以来,汉语自动分词是公认的汉语信息处理转载 2010-11-22 14:41:00 · 8608 阅读 · 0 评论 -
最大熵模型
<br /><br /> 最大熵模型:读书笔记<br /> 胡江堂,北京大学软件学院<br />1. 物理学的熵<br />2. 信息论的熵<br />3. 熵和主观概率(一个简单注释<br />4. 熵的性质<br />4.1. 当所有概率相等时,熵取得最大值<b转载 2010-11-22 13:50:00 · 2374 阅读 · 0 评论 -
最大熵模型文献阅读指南
<br /><br />最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)都有比较好的应用效果。张乐博士的最大熵模型工具包manual里有“Further Reading”,写得不错,就放到这里作为最大熵模型文献阅读指南了。<br /> 与《统计机器翻译文献阅读指南》不同,由于自己也正在努力学习Maximum Entropy Model中,没啥发言权,就不多说废话了。这些文献在Google上很转载 2010-11-22 11:35:00 · 2030 阅读 · 0 评论 -
中文分词和搜索引擎
<br /><br />作者:Winter 工程师<br />搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《互联网调查报告》显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中非常重要的模块,这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也就不存在分词问题。和中文搜索引擎类似还有日文、韩文、泰文搜索引擎等,都需要处理分词问题。<br />为什么需要中文分词<br />目前转载 2010-11-22 11:18:00 · 3240 阅读 · 0 评论 -
【转】基于统计的词网格分词
<br /> <br /> <br /> 词网格分词方法是基于统计的方法,它具有比较高的分词正确率,而且可以比较容易的进行扩展。可以通过加入相应的统计信息来扩展不同的功能。<br /> 基于词网格分词的第一步是候选词网格构造:利用词典匹配,列举输入句子所有可能的切分词语,并以词网格形式保存。实际上,词网格是一个有向无环图(Directly Acyclic Graph, DAG),它蕴含了输入句子所有可能的切分,其中的每一条路径代表一种切分。图3-1表示的是字串“中国人民生活”的切分词网格,它转载 2010-11-19 14:17:00 · 3852 阅读 · 0 评论 -
Lucene3.0改进
一、概述Lucene3.0(以下简称3.0)已于2009-11-25发布,3.0版本是重大的版本,改动很大。在API上做了很多的调整,已经删除了很多之前废弃的方法以及类,并支持了很多Java5 的新特性:包括泛型、可变参数、枚举和autoboxing等。因此,此版本和2.x版本不能兼容,如要使用3.0版本,最好是在新项目中去使用,而不是去升级2.x或之前的版本!二、2.9版本介绍 由于新版本变动很大,官方是不推荐从旧版本升级到新版本的。因为改动会很大。 其实在2.9版本时改动就很大,因为2.9版本就转载 2010-11-17 14:08:00 · 1091 阅读 · 0 评论 -
N-gram模型
在介绍N-gram模型之前,让我们先来做个香农游戏(Shannon Game)。我们给定一个词,然后猜测下一个词是什么。当我说“艳照门”这个词时,你想到下一个词是什么呢?我想大家很有可能会想到“陈冠希”,基本上不会有人会想到“陈志杰”吧。N-gram模型的主要思想就是这样的。 对于一个句子T,我们怎么算它出现的概率呢?假设T是由词序列W1,W2,W3,…Wn组成的,那么P(T)=P(W1W2W3Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1) 但是这种转载 2010-11-19 17:26:00 · 47610 阅读 · 7 评论 -
本博客中有关Lucene的讲解
Lucene的基础概念:apache lucene介绍Lucene:基于Java的全文检索引擎简介Lucene3.0.0讲解 由于lucene3.0与之前版本相差较大,所以我特别选出来讲Lucene3.0改进Lucene3.0.0 入门实例相关概念:Apache Solr 介绍(1)当前几个主要的Lucene中文分词器的比较原创 2010-11-17 14:20:00 · 1875 阅读 · 0 评论 -
Lucene3.0.0 入门实例
Lucene3.0.0 入门实例转载 2010-11-17 13:33:00 · 4034 阅读 · 1 评论 -
隐马尔科夫模型HMM自学(一)
<br /><br />网上找到的一篇非常不错的介绍隐马尔科夫模型<br />介绍<br />崔晓源 翻译<br />我们通常都习惯寻找一个事物在一段时间里的变化规律。在很多领域我们都希望找到这个规律,比如计算机中的指令顺序,句子中的词顺序和语音中的词顺序等等。一个最适用的例子就是天气的预测。<br />首先,本文会介绍声称概率模式的系统,用来预测天气的变化<br />然后,我们会分析这样一个系统,我们希望预测的状态是隐藏在表象之后的,并不是我们观察到的现象。比如,我们会根据观察到的植物海藻的表象来预测天气转载 2010-11-24 10:31:00 · 2775 阅读 · 0 评论 -
外文翻译_Chinese Word Segmentation at Peking University
由于在淘宝实习阶段做的项目,主要是中文分词模块,因此大学毕业设计选择的题目是《基于电子商务的中文分词技术研究》,这篇是我的外文翻译文档——《Chinese Word Segmentation at Peking University》。翻译 2011-02-19 14:38:00 · 2038 阅读 · 2 评论 -
Lucene学习总结之五:细述Lucene的索引文件格式(2)
四、具体格式上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。4.1. 正向信息Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)上面的层次结构不是十分的准确,因为segments.gen和seg转载 2011-03-06 16:06:00 · 3431 阅读 · 0 评论 -
Lucene学习总结之四:细述Lucene的索引文件格式(1)
原文地址:http://forfuture1978.javaeye.com/blog/546824ps:这篇文章是以lucene2.9.0 版本进行讲解的。Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的转载 2011-03-06 15:03:00 · 3307 阅读 · 0 评论 -
Lucene学习总结之二:Lucene的总体架构
原文出处:http://forfuture1978.javaeye.com/blog/546808Lucene总的来说是:一个高效的,可扩展的,全文检索库。全部用Java实现,无须配置。仅支持纯文本文件的索引(Indexing)和搜索(Search)。不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图,说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。让我们更细一些看Lucene的各组件: 被索引的转载 2011-03-02 16:52:00 · 3721 阅读 · 0 评论 -
Lucene学习总结之一:全文检索的基本原理
原文:http://forfuture1978.javaeye.com/blog/546771一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。非结构化数据:指不定长或无固定转载 2011-03-02 16:21:00 · 7256 阅读 · 0 评论 -
外文翻译_A Search-based Chinese Word Segmentation Method
A Search-based Chinese Word Segmentation Method 一个基于搜索的中文分词方法Xin-Jing Wang Wen Liu翻译 2011-02-26 19:26:00 · 2305 阅读 · 0 评论 -
IKAnalyzer中文分词分析内容目录
<br />IKAnalyzer中文分词的学习:Java开源分词系统IKAnalyzer学习(一) 大致简介Java开源分词系统IKAnalyzer学习(二) 架构Java开源分词系统IKAnalyzer学习(三) 流程Java开源分词系统IKAnalyzer学习(四) 词库加载源代码——Dictionary类Java开源分词系统IKAnalyzer学习(五) 词库加载源代码——DictSegmenty类Java开源分词系统IKAnalyzer学习(六) 词库加载源代码——Hit类Java开源分词系统IKA原创 2010-11-25 15:35:00 · 4292 阅读 · 0 评论 -
ME, HMM, MEMM, CRF
<br />最大熵模型 Maximum Entropy<br />现从一个简单例子看起:<br />比如华盛顿和维吉利亚都可以作人名和地名,而从语料中只知道p(人名)=0.6,那么p(华盛顿=人名)的概率为多少比较好呢?一个直观的想法就是p(华盛顿=人名)=0.3。为什么呢?这就是在满足已有证据的情况下不做任何其他假设,也就是熵最大,这就是最大熵模型的原理。<br />现在来看模型的定义:<br />首先,明确模型的目标:给定一个上下文x,估计p(y|x)<br />接着,从训练样本中我们可以得到一串标注过转载 2010-11-24 13:46:00 · 1585 阅读 · 0 评论 -
隐马尔科夫模型HMM自学 (三)
<br /><br />找到可能性最大的隐含状态序列<br />崔晓源 翻译<br />多数情况下,我们都希望能够根据一个给定的HMM模型,根据观察状态序列找到产生这一序列的潜在的隐含状态序列。<br />1、穷举搜索方法<br /> <br />我们可以通过穷举的方式列出所有可能隐含状态序列,并算出每一种隐状态序列组合对应的观察状态序列的概率。概率最大的那个组合对应的就是最可能的隐状态序列组合。<br />Pr(observed sequence | hidden state combination).<转载 2010-11-24 11:01:00 · 1775 阅读 · 0 评论 -
百度搜索引擎详解
<br /><br />今天无意中读到的,网上转载很多了,不过还是忍不住在转载一番,不过原文就找不到了,读得有点累,但是多少有点启发了,推荐一下。<br />查询处理以及分词技术<br />随 着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向 人们证明了网络所蕴藏的巨大商转载 2010-11-18 16:24:00 · 2945 阅读 · 0 评论 -
自动分词算法的分类
自动分词算法的分类我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。1、 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合转载 2010-11-18 15:18:00 · 4762 阅读 · 0 评论 -
Java开源分词系统IKAnalyzer学习(六) 词库加载源代码——Hit类
<br />/** * */package org.wltea.analyzer.dic;/** * IK Analyzer v3.2 * 表示词典检索的命中结果 * @author 林良益 * */public class Hit { //Hit不匹配 private static final int UNMATCH = 0x00000000; //Hit完全匹配 private static final int MATCH = 0x0000000原创 2010-11-15 15:07:00 · 2425 阅读 · 0 评论 -
ICTCLAS分词系统Java调用接口在Eclipse中的安装- Java编程
实验环境:JDK1.5、Eclipse3.1、XP操作系统分词系统Java接口解压包:d:/fenci(http://www.nlp.org.cn中查找下载)导入步骤:在Eclipse中新建Java项目,名称为:WordSpli,目录结构如下所示: 右击WordSplit项目,选择“导入”,将弹出导入窗口,选择列表中的“文件系统”,弹出“文件系统”导入窗口,选择相关文件(如下图所示):(注:“选项”里只能选择“只创建选择的文件夹”单选框。正在装载数据……) 选择完成后,单击“完成”按钮,反回Eclips转载 2010-11-05 14:08:00 · 2614 阅读 · 0 评论 -
本博客中中文分词索引页
中文分词系统理论:搜索引擎技术揭密:中文分词技术 这篇文章概念讲得比较清晰搜索引擎之中文分词(Chinese Word Segmentation)简介中文自动分词 ——摘自《搜索引擎 ——原理技术与系统》 摘自一本书,算法思想讲得不错话说搜索引擎分词浙大一位同学的中文分词算法现有搜索引擎的分析:百度的分词算法现有的一些技术:几个免费的中文分词模块【转】开源中文分词软件分析java语言的开源工具:http://open-open.com/74.htm ICTCLAS 计算所汉语词法分析系统主页:http原创 2010-11-05 17:45:00 · 3259 阅读 · 0 评论 -
几个免费的中文分词模块
一、什么是中文分词众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。转载 2010-11-05 11:59:00 · 3090 阅读 · 0 评论 -
【转】开源中文分词软件分析
赞赏nzinfo的开源精神,并为中文检索技术的推广添砖加瓦。由于工作关系,这段时间对全文检索技术做了一些了解,论坛新张,特将我平时收集的一些开源中文分词项目列在下面,还很不全面,大家帮忙总结。(商业的有海量、猎兔等,就不放在这里了)名称:计算所汉语词法分析系统ICTCLAS这可是最早的中文开源分词项目之一,很多后来的分词项目都参考了他,有中科院计算所开发,网站上有很多相关资源可供研究参考,不过好像现专人维护网站了,很多死链。许可证方式: 自然语言处理开放资源许可证运行环境: Win9X, Win2000,转载 2010-11-05 11:53:00 · 1430 阅读 · 0 评论 -
中文自动分词 ——摘自《搜索引擎 ——原理技术与系统》
对索引网页库信息进行预处理包括网页分析和建立倒排文件索引两个部分。中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在提取特征项时,中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是连续书写的。这就要求在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)。用具体例子原创 2010-11-05 11:17:00 · 1759 阅读 · 0 评论 -
搜索引擎之中文分词(Chinese Word Segmentation)简介
<br /><br />在《“全文检索(full-text search)”和“搜索引擎(search engine)”的区别和联系》中我们提及到了中文分词,以及《双数组Trie(Double Array Trie)实现原理的一点剖析》中阐述了高效率中文分词的实现。接下来让我们抛开双数组Trie的那些公式,从概念上来了解一下分词技术,因为英文分词相对比较简单,这里主要来了解的是中文分词。<br />英文是以词为单位的,词与词之间上靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英转载 2010-11-04 19:38:00 · 2678 阅读 · 0 评论 -
搜索引擎技术揭密:中文分词技术
<br /><br /> 信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。<br /> 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年转载 2010-11-04 19:09:00 · 5174 阅读 · 2 评论 -
庖丁中文分词入门(一) 效果体验
<br /><br />下载地址:<br />zip download:http://code.google.com/p/paoding/downloads/list<br />svn: http://paoding.googlecode.com/svn/trunk/paoding-analysis/效果体验<br />使用者第一步最有可能的是想要体验了解庖丁的分词效果。考虑到这样的需求,庖丁提供了一个shell文件,使用者不必写任何代码就可以获得这样的信息。进入Paoding-Analysis分发包,在命转载 2010-11-07 15:46:00 · 8772 阅读 · 0 评论 -
当前几个主要的Lucene中文分词器的比较
<br /><br />1. 基本介绍:<br />paoding :Lucene中文分词“庖丁解牛” Paoding Analysis<br />imdict :imdict智能词典所采用的智能中文分词程序<br />mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器<br />ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式<br />2. 开发者及开发活跃度:<br />paoding :qieqie.wang, google code 上最转载 2010-11-07 16:04:00 · 1691 阅读 · 0 评论 -
Java开源分词系统IKAnalyzer学习(八) 基于词库分词
分词操作:Lexeme l = null; while( (l = ikSeg.next()) != null){ System.out.println(l); } 相关流程原创 2010-11-16 15:03:00 · 2095 阅读 · 0 评论 -
Java开源分词系统IKAnalyzer学习(五) 词库加载源代码——DictSegmenty类
<br />/** * */package org.wltea.analyzer.dic;import java.util.HashMap;import java.util.Map;/** * IK Analyzer v3.2 * 字典子片断 字典匹配核心类 * 该类采用 数组 结合 HashMap,实现词典存储,词语匹配 * * 当下属的页节点小等于3时,采用数组存储 * 当下属的页节点大于3时,采用HashMap存储 * @author 林良益原创 2010-11-15 15:06:00 · 3894 阅读 · 0 评论 -
Java开源分词系统IKAnalyzer学习(四) 词库加载源代码——Dictionary类
词库加载的源代码:/** * */package org.wltea.analyzer.dic;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.util.Collection;import java.util.List;import org.wltea.ana原创 2010-11-15 14:38:00 · 7686 阅读 · 0 评论 -
中文分词的一些心得体会
一些概念:单纯使用正向最大匹配的错误率是1/169,单纯使用逆向最大匹配的错误率为1/245,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也比较少。来源:[3] Steele R,Lee C C,Gould P.GSM,edmaone and 3G Systems[M].[s.1.]:John Wiley&Sons Ltd,2001.[4]Homnan B,Bebjapolakul W.QoS—controlling soft handof based on simple step control an原创 2010-11-11 15:49:00 · 1096 阅读 · 0 评论 -
中文分词
<br />中文分词简介中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。中文分词的缘起之所以存在中文分词技术,是由于中文在基本文法上有其特殊性,具体表现转载 2010-11-09 17:30:00 · 1840 阅读 · 0 评论 -
Java开源分词系统IKAnalyzer学习(一) 大致简介
首先申明,我这里只用到IKAnalyzer独立于Luncene的分词组件,所以会跟作者原本的使用手册信息略不同1.IKAnalyzer 3.X介绍 IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer 3.X 则发展为面向Java 的公用分词组件,独立于Lucene转载 2010-11-08 16:58:00 · 5330 阅读 · 2 评论 -
mmseg4j 多分词模式与 paoding 分词效果对比
<br /> <br />mmseg4j 1.6支持最多分词,应网友的要求:分词效果与 paoding 对比下。观察了 paoding 部分分词结果,现总结下。<br />paoding 分词效果:<br />-------------------------- 清华大学 清华 | 大 | 华大 | 大学 | -------------------------- 华南理工大学 华南 | 理工 | 大 | 大学 | --------------------------转载 2010-11-07 16:16:00 · 1197 阅读 · 0 评论 -
话说搜索引擎分词
<br />现在网上有很多种分词方法。要精确必然损失性能,要性能那么精确度必然下降。<br /><br />比如有句话:<br /><br />"我是中国人"<br /><br />看看这句话有多少种划分<br /><br />我我是我是中我是中国我是中国人 是是中是中国是中国人 中中国中国人 国国人 人<br />按照灰色区域划分,无疑是正确的。但是从全部分词划分上来说,分词的分法达到了 2^n种。<br /><br />在我见过的分发中,很多种都是大同小异。而很多种都提到了一个概念——最大词转载 2010-11-04 19:34:00 · 1262 阅读 · 0 评论