- 博客(29)
- 资源 (10)
- 收藏
- 关注
翻译 Conditional Random Fields(CRF)
<br /><br />原文:http://www.inference.phy.cam.ac.uk/hmw26/crf/<br />写的不错,有空翻译过来。<br /><br />This page contains material on, or relating to, conditional randomfields. I shall continue to update this page as research onconditional random fields advances, s
2011-05-23 16:39:00 2452
转载 Mongodb源码分析--Command体系架构
<br />Command在Mongodb中是一类特殊操作,它提供了强大的管理及各项操作(比如建库,索引,删除集合等)。可以说通过Command可以完成几乎 所有想做的事情。同时Mongodb开发者在Command上又做了非常清晰体系架构和设计,便于管理和高效执行各种类型的Command。<br /> 今天就专门用一篇篇幅来着重介绍一下其Command的体系架构,并用例子来介绍mongod是如何将Command引入其中的。<br /> <br /> 为了对其中大部分command对一个大
2011-05-19 09:29:00 712
转载 Mongodb源码分析--内存文件映射(MMAP)
<br />在Mongodb中,其使用了操作系统底层提供的内存映射机制,即MMAP。MMAP可以把磁盘文件的一部分或全部内容直接映射到内存,这样文件中的信息 位置就会在内存中有对应的地址空间,这时对文件的读写可以直接用指针来做,而不需要read/write函数了。同时操作系统会将数据刷新保存到磁盘上。 如下图:<br /> <br /> 鉴于linux,window系统为mmap所提供的API大同小异(见下图)。这里仅以mongodb对window系统的mmap调用机制为例,来说 明一下
2011-05-19 09:27:00 781
转载 Mongodb源码分析--游标Cursor
<br /><br /> 在Mongodb中,其提供了类似关系型数据中cursor对象来遍历数据集合,同时mongodb并要根据不同的场景生成不同的游标对象 (cursor),比如顺序遍历游标(basicCursor),反向游标(reverseCursor), B树索引游标(btreeCursor)等。 下面是其游标体系架构类图(位于cursor.cpp, cursor.h, clientcursor.cpp, clientcursor.h):<br /> <br /> 从该图中,可以看到
2011-05-19 09:00:00 596
转载 Mongodb源码分析--更新记录
<br /> 在之前的一篇文章 中,介绍了assembleResponse函数(位于instance.cpp第224行),它会根据op操作枚举类型来调用相应的crud操作,枚举类型定义如下:<br /> view plaincopy to clipboardprint?enum Operations { opReply = 1 , /* reply. responseTo is set. */ dbMsg = 1000 , /* generic
2011-05-19 08:28:00 684
转载 Mongodb源码分析--更新记录
<br /> 在之前的一篇文章 中,介绍了assembleResponse函数(位于instance.cpp第224行),它会根据op操作枚举类型来调用相应的crud操作,枚举类型定义如下:<br /> view plaincopy to clipboardprint?enum Operations { opReply = 1 , /* reply. responseTo is set. */ dbMsg = 1000 , /* generic
2011-05-19 08:27:00 641
转载 Mongodb源码分析--删除记录
<br /><br />在之前的一篇文章 中,介绍了assembleResponse函数(位于instance.cpp第224行),它会根据op操作枚举类型来调用相应的crud操作,枚举类型定义如下: view plaincopy to clipboardprint?enum Operations { opReply = 1, /* reply. responseTo is set. */ dbMsg = 1000, /* generic msg com
2011-05-19 08:26:00 833
转载 Mongodb源码分析--消息(message)
<br />在Mongodb中,客户端和服务端进行通信是基于mongodb wire protocol 。说白了,该协议是一个简单的基于socket,请求/响应方式的协议,客户端使用常规的TCP/IP套接字(socket)进行通信。<br /><br /> 客户端与服务端使用约定的消息(格式)进行通信,其消息头结构与C语言中的struct类似。具体的代码(位于message.cpp):<br /> <br /> view plaincopy to clipboardprint?stru
2011-05-19 08:25:00 549
转载 Mongodb源码分析--插入记录及索引B树构建
<br /><br />在之前的一篇文章 中,介绍了assembleResponse函数(位于instance.cpp第224行),它会根据op操作枚举类型来调用相应的crud操作,枚举类型定义如下: enum Operations {<br /> opReply = 1 , /* reply. responseTo is set. */ <br /> dbMsg = 1000 , /* generic msg command fo
2011-05-19 08:23:00 638
转载 N-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串)的重码问题。 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的
2011-05-19 08:12:00 1520
转载 ME, HMM, MEMM, CRF
<br />最大熵模型 Maximum Entropy<br />现从一个简单例子看起:<br />比如华盛顿和维吉利亚都可以作人名和地名,而从语料中只知道p(人名)=0.6,那么p(华盛顿=人名)的概率为多少比较好呢?一个直观的想法就是p(华盛顿=人名)=0.3。为什么呢?这就是在满足已有证据的情况下不做任何其他假设,也就是熵最大,这就是最大熵模型的原理。<br />现在来看模型的定义:<br />首先,明确模型的目标:给定一个上下文x,估计p(y|x)<br />接着,从训练样本中我们可以得到一串标注过
2011-05-18 18:01:00 972
转载 隐马尔科夫模型HMM学习(三)
找到可能性最大的隐含状态序列崔晓源 翻译多数情况下,我们都希望能够根据一个给定的HMM模型,根据观察状态序列找到产生这一序列的潜在的隐含状态序列。1、穷举搜索方法我们可以通过穷举的方式列出所有可能隐含状态序列,并算出每一种隐状态序列组合对应的观察状态序列的概率。概率最大的那个组合对应的就是最可能的隐状态序列组合。Pr(observed sequence | hidden state combination).比如说上图中的trellis中,最有可能的隐状态序列是使得概率:Pr(dry,damp,soggy
2011-05-18 18:00:00 677
转载 隐马尔科夫模型HMM学习(一)
介绍崔晓源 翻译我们通常都习惯寻找一个事物在一段时间里的变化规律。在很多领域我们都希望找到这个规律,比如计算机中的指令顺序,句子中的词顺序和语音中的词顺序等等。一个最适用的例子就是天气的预测。首先,本文会介绍声称概率模式的系统,用来预测天气的变化然后,我们会分析这样一个系统,我们希望预测的状态是隐藏在表象之后的,并不是我们观察到的现象。比如,我们会根据观察到的植物海藻的表象来预测天气的状态变化。最后,我们会利用已经建立的模型解决一些实际的问题,比如根据一些列海藻的观察记录,分析出这几天的天气状态。Gener
2011-05-18 17:57:00 1595
转载 基于隐马尔科夫模型的中文分词研究
<br />基于隐马尔科夫模型的中文分词研究<br /> 魏晓宁<br /> (南通大学计算机科学与技术学院,江苏南通226019)<br />摘要:一直以来,汉语自动分词是公认的汉语信息处理瓶颈。反思现有汉语自动分词技术,发现均有隐舍两大假设:语言是规律的、词具有
2011-05-18 17:56:00 2329
转载 最大熵模型:读书笔记
<br /><br />最大熵模型:读书笔记<br /> <br /> 胡江堂,北京大学软件学院<br />1. 物理学的熵<br />2. 信息论的熵<br />3. 熵和主观概率(一个简单注释<br />4. 熵的性质<br />4.1. 当所有概率相等时,熵取得最大值<br />4.2. 小概率事件发生时携带的信息量比大概率事件发生时携带的信息量多<br />
2011-05-18 17:55:00 866
转载 最大熵模型文献阅读指南
<br />最大熵模型(Maximum Entropy Model)是一种机器学习方法,在自然语言处理的许多领域(如词性标注、中文分词、句子边界识别、浅层句法分析及文本分类等)都有比较好的应用效果。张乐博士的最大熵模型工具包manual里有“Further Reading”,写得不错,就放到这里作为最大熵模型文献阅读指南了。<br /> 与《统计机器翻译文献阅读指南》不同,由于自己也正在努力学习Maximum Entropy Model中,没啥发言权,就不多说废话了。这些文献在Google上很容易找到,不
2011-05-18 17:53:00 514
转载 基于CRF的中文分词
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:•分词(标注字的词位信息,由字构词)•词性标注(标注分词的词性,例如:名词,动词,助词)•命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)本文主要描述如何使用CRF技术来进行中文分词。CRF VS 词典统计分词•基于词典的分词过度依赖词典和规则库,因此对于歧义词和未登录
2011-05-18 17:43:00 518
转载 当前几个主要的Lucene中文分词器的比较
<br />1. 基本介绍:<br />paoding :Lucene中文分词“庖丁解牛” Paoding Analysis<br />imdict :imdict智能词典所采用的智能中文分词程序<br />mmseg4j : 用 Chih-Hao Tsai 的 MMSeg 算法 实现的中文分词器<br />ik :采用了特有的“正向迭代最细粒度切分算法“,多子处理器分析模式<br />2. 开发者及开发活跃度:<br />paoding :qieqie.wang, google code 上最后一次代码提
2011-05-18 17:17:00 459
转载 搜索引擎技术揭密:中文分词技术
<br />信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。<br /> 搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究
2011-05-18 17:11:00 440
转载 自动分词算法的分类
<br />我们可以将现有的分词算法分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。<br />1、 基于字符串匹配的分词方法<br />这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个"充分大的"机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。<br />按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为
2011-05-18 17:08:00 907
转载 百度搜索引擎详解
<br /><br />今天无意中读到的,网上转载很多了,不过还是忍不住在转载一番,不过原文就找不到了,读得有点累,但是多少有点启发了,推荐一下。<br />查询处理以及分词技术<br />随 着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。搜索引擎经济的崛起,又一次向 人们证明了网络所蕴藏的巨大商
2011-05-18 16:41:00 1046
转载 中文分词和搜索引擎
<br />作者:Winter 工程师<br />搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《互联网调查报告》显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中非常重要的模块,这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也就不存在分词问题。和中文搜索引擎类似还有日文、韩文、泰文搜索引擎等,都需要处理分词问题。<br />为什么需要中文分词<br />目前的搜索引擎,
2011-05-18 16:37:00 477
翻译 一个基于搜索的中文分词方法( A Search-based Chinese Word Segmentation Method)
<br />A Search-based Chinese Word Segmentation Method<br /> 一个基于搜索的中文分词方法<br /> <br />ABSTRACT<br /> In this paper, we propose a novel Chinese word segmentation method which leverages the huge d
2011-05-18 16:25:00 1075
转载 二值形态学——膨胀,腐蚀
<br />最近在做一个Motion Detection的课题,在课题中提取的运动物体往往由离散的点组成,如果要用连通分量的计算方法提取每个运动物体的轮廓不太容易,为此要将由离散点组成的图像进行膨胀,腐蚀运算。<br />膨胀 dilation<br />考虑两幅二值图像A,B。它们的前景用黑色,背景用白色。另fA和fB表示各自前景点的集合。定义膨胀运算为:dilation(A,B) = {a+b| a∈A,b∈B}。比如:<br />A = {(2,8),(3,6),(4,4),(5,6),(6,4),(
2011-05-18 16:06:00 1124
转载 运动物体检测——光流法
<br />前面的一篇文章谈了高斯背景模型在运动物体检测中的应用。本文主要讨论另一种方法——光流法。与高斯背景模型的方法不同,光流法可以用于摄像机固定和摄像机运动的情形,但本文只就摄像机固定的情况进行讨论,即不涉及摄像机运动预测问题。<br />光流法的介绍<br />在空间中,运动可以用运动场描述。而在一个图像平面上,物体的运动往往是通过图像序列中不同图象灰度分布的不同体现的。从而,空间中的运动场转移到图像上就表示为光流场,光流场反映了图像上每一点灰度的变化趋势。<br />光流可以看作带有灰度的像素点在
2011-05-18 16:04:00 2691 1
转载 运动物体分割 —— 高斯背景模型
<br />高斯背景模型<br />运动检测的一般方法<br /> 目前,运动物体检测的问题主要分为两类,摄像机固定和摄像机运动。对于摄像机运动的运动物体检测问题,比较著名的解决方案是光流法,通过求解偏微分方程求的图像序列的光流场,从而预测摄像机的运动状态。对于摄像机固定的情形,当然也可以用光流法,但是由于光流法的复杂性,往往难以实时的计算,所以我采用高斯背景模型。因为,在摄像机固定的情况下,背景的变化是缓慢的,而且大都是光照,风等等的影响,通过对背景建模,对一幅给定图像分离前景和背景,一般来说,前景
2011-05-18 16:03:00 854
转载 用C#实现HTTP协议下的多线程文件传输
<br />很多人都有过使用网络蚂蚁或网络快车软件下载互联网文件的经历,这些软件的使用可以大大加速互联网上文件的传输速度,减少文件传输的时间。这些软件为什么有如此大的魔力呢?其主要原因是这些软件都采用了多线程下载和断点续传技术。如果我们自己来编写一个类似这样的程序,也能够快速的在互联网上下载文件,那一定是非常愉快的事情。下面我就讲一讲如何利用C#语言编写一个支持多线程下载文件的程序,你会看到利用C#语言编写网络应程序是多么的容易,从中也能体会到C#语言中强大的网络功能。<br /> 首先介绍一下HTTP协
2011-05-18 15:58:00 399
转载 经典的C++库
基础类1、 Dinkumware C++ Library参考站点:http://www.dinkumware.comP.J. Plauger编写的高品质的标准库。P.J. Plauger博士是Dr. Dobb's程序设计杰出奖的获得者。其编写的库长期被Microsoft采用,并且最近Borland也取得了其OEM的license,在其C/C+ +的产品中采用Dinkumware的库。2、 RogueWave Standard C++ Library参考站点:http://www.roguewave.com这
2011-05-18 14:33:00 438
Programming C#中文版(第4版).part3
2011-07-27
DevComponents.DotNetBar v8.8.0.0.for.NET.part2.rar
2010-09-19
DevComponents.DotNetBar v8.8.0.0.for.NET.part1.rar
2010-09-19
(C#)ListViewEx--扩展 ListView
2009-11-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人