Tingella-CSDN博客

原创 IR evaluation dataset related

传统的信息检索方向技术的研究总是专注于如何针对用户的一个查询提供更好的结果,30然而事实上,用户在最终找到自己想要的东西之前,总是经历了一个与搜索引擎交互的过程,我们称之为 session。在这个过程中,用户需要不断的变换自己的查询词或者替换成相似的同义词,根据搜索引擎的表现来判定,以便告诉搜索引擎什么是自己想要的。对搜索引擎的检索日志的分析显示,一半的用户会在他们的检

2014-10-10 17:19:35 597

转载搜索质量评估

前言搜索质量评估是搜索技术研究的基础性工作，也是核心工作之一。评价（Metrics）在搜索技术研发中扮演着重要角色，以至于任何一种新方法与他们的评价方式是融为一体的。搜索引擎结果的好坏与否，体现在业界所称的在相关性（Relevance）上。相关性的定义包括狭义和广义两方面，狭义的解释是：检索结果和用户查询的相关程度。而从广义的层面，相关性可以理解为为用户查询的综合满意度。直观的来看，从用户

2014-09-19 16:44:58 4308

转载 MMSEG分词算法

关于MMSEG分词算法MMSEG是中文分词中一个常见的、基于词典的分词算法（作者主页：http://chtsai.org/index_tw.html），简单、效果相对较好。由于它的简易直观性，实现起来不是很复杂，运行速度也比较快。关于算法的原文，可以参见：http://technology.chtsai.org/mmseg/总的来说现在的中文分词算法，大概可以笼统的分为两大类：一种基于词

2014-09-19 14:45:12 491

转载 Linux Head

每天一个linux命令（14）：head 命令head 与 tail 就像它的名字一样的浅显易懂，它是用来显示开头或结尾某个数量的文字区块，head 用来显示档案的开头至标准输出中，而 tail 想当然尔就是看档案的结尾。 1．命令格式：head [参数]... [文件]... 2．命令功能：head 用来显示档案的开头至标准输出中，默认head命令打印其相应文件的开

2014-09-17 14:25:49 447

转载 Linux Cut

cut是一个选取命令，就是将一段数据经过分析，取出我们想要的。一般来说，选取信息通常是针对“行”来进行分析的，并不是整篇信息分析的。（1）其语法格式为：cut [-bn] [file] 或 cut [-c] [file] 或 cut [-df] [file]使用说明cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参

2014-09-17 14:22:56 452

转载 linux grep命令

1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是Global Regular Expression Print，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep [options]3.主要参数[options]主要参数：－c：只输出匹配行的计数。－I：不区分大小写(只适用于

2014-09-17 14:19:14 399

转载数据库设计三大范式

转载自：http://www.cnblogs.com/linjiqin/archive/2012/04/01/2428695.html数据库设计三大范式为了建立冗余较小、结构合理的数据库，设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库，必须满足一定的范式。

2014-09-14 21:05:06 332

转载 tcp-ip的三次握手和四次挥手

转载自：http://blog.chinaunix.net/uid-25544300-id-3314564.html相对于SOCKET开发者,TCP创建过程和链接折除过程是由TCP/IP协议栈自动创建的.因此开发者并不需要控制这个过程.但是对于理解TCP底层运作机制,相当有帮助. 而且对于有网络协议工程师之类笔试,几乎是必考的内容.企业对这个问题热情之高,出乎我的

2014-09-14 17:10:19 393

转载 Linux Shell编程入门

从程序员的角度来看，Shell本身是一种用C语言编写的程序，从用户的角度来看，Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行，又可以利用Shell脚本编程，完成更加复杂的操作。在LinuxGUI日益完善的今天，在系统管理等领域，Shell编程仍然起着不可忽视的作用。深入地了解和熟练地掌握Shell编程，是每一个Linux用户的必修功课之一。Linux的Shell种类

2014-09-11 10:27:39 434

转载 Lingpipe中的spell模块-拼写纠错

lin基本模型基本技术工作如下：搜索引擎提供可使用的稳定被用来索引和被训练成为一种语言模型。这种语言模型存储的是短语和短语统计的特征信息。当提交一个查询时，类src/QuerySpellCheck.java 在模型中寻找与之匹配的字符编辑操作，诸如字符截取，插入，替换，转换和删除等等，这样使查询更好的适用于语言模型。如果你提交一个查询"Gretski"，模型中的数据来源为rec

2014-09-09 13:06:48 644

转载说说单词智能纠错算法--探讨思考问题的方法

本文想从Office中的Word的语法检查和纠正功能发散开来，探讨一下这方面的相关算法和对问题的思考方式，以及怎么样从其他类似的地方受到启发不断解决新的问题。先简单说说问题吧，我们在使用Word的时候经常会发现有些单词比如school,一不小心给敲成了shcool或者shool，这个时候Word会很体贴地提示我们这个英语单词错了（很简单shcool,shool在Word的字典库中都没有

2014-09-09 09:04:02 766

转载数学之美系列二十一－布隆过滤器（Bloom Filter）

2007年7月3日上午 09:35:00发表者：Google（谷歌）研究员吴军在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否已经在嫌疑名单上；在网络爬虫里，一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中

2014-09-05 16:33:43 485

转载数学之美系列十三：信息指纹及其应用

任何一段信息文字，都可以对应一个不太长的随机数，作为区别它和其它信息的指纹（Fingerprint)。只要算法设计的好，任何两段信息的指纹都很难重复，就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。我们在图论和网络爬虫一文中提到，为了防止重复下载同一个网页，我们需要在哈希表中纪录已经访问过的网址（URL)。但是在哈希表中以字符串的形式直接存储网址，既费内存空间，又浪费

2014-09-05 16:29:23 332

转载字符串的经典hash算法

字符串的经典hash算法　　1 概述　　链表查找的时间效率为O(N)，二分法为log2N，B+ Tree为log2N，但Hash链表查找的时间效率为O(1)。　　设计高效算法往往需要使用Hash链表，常数级的查找速度是任何别的算法无法比拟的，Hash链表的构造和冲突的不同实现方法对效率当然有一定的影响，然而Hash函数是Hash链表最核心的部分，本文尝试分析一些经典软件中使用到的字符串

2014-09-05 15:47:07 559

转载 IR Evaluation Matrics

IR evalu信息检索评价是对信息检索系统性能（主要满足用户信息需求的能力）进行评估的活动。通过评估可以评价不同技术的优劣，不同因素对系统的影响，从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。IR的评价指标，通常分为三个方面：（1）效率(Efficiency)—可以采用通常的评价方法：时间开销、空间开销、响应速度。（2）

2014-09-05 13:39:50 697

转载 Co-variance

协方差的定义对于一般的分布，直接代入E(X)之类的就可以计算出来了，但真给你一个具体数值的分布，要计算协方差矩阵，根据这个公式来计算，还真不容易反应过来。网上值得参考的资料也不多，这里用一个例子说明协方差矩阵是怎么计算出来的吧。记住，X、Y是一个列向量，它表示了每种情况下每个样本可能出现的数。比如给定则X表示x轴可能出现的数，Y表示y轴可能出现的。注意这里是关键，给定了4

2014-09-03 10:26:31 665

转载测试基本问题

软件测试的目的是尽可能多的找出软件的缺陷。（ Y） 2 ．Beta 测试是验收测试的一种。（ Y） Acceptance testing 验收测试是部署软件之前的最后一个测试操作。验收测试的目的是确保软件准备就绪，并且可以让最终用户将其用于执行软件的既定功能和任务。 3 ．验收测试是由最终用户来实施的。（ N ）是由测试人员来实施的 4 ．项目立项前测试人员不需要提交任

2014-08-27 23:07:35 488

原创测试种类

（1）回归测试是指修改了旧代码后，重新进行测试以确认修改没有引入新的错误或导致其他代码产生错误。（2）

2014-08-27 23:06:18 417

转载 PCA降维

转载请声明出处。by watkins songPCA的一些基本资料最近因为最人脸表情识别，提取的gabor特征太多了，所以需要用PCA进行对提取的特征进行降维。本来最早的时候我没有打算对提取的gabor特征进行降维，但是如果一个图像时64*64,那么使用五个尺度八个方向的gabor滤波器进行滤波，这样提取的特征足足有64*64*5*8这么多，如果图像稍微大一

2014-08-04 16:21:44 945

原创 LDA

阅读的相关资源：http://www.zhizhihu.com/html/y2012/3976.html

2014-08-04 10:00:20 477

原创 TF-IDF

TF-IDF --->term frequency - inverse document frequency (词频--)

2014-08-03 20:05:10 653

转载机器学习10大经典算法

1、C4.5机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。决策树学习也是

2014-08-03 16:49:01 581

PageRank，网页排名，又称网页级别、Google左侧排名或佩奇排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以Google公司创办人拉里·佩奇（Larry Page）之姓来命名。Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了

2014-08-03 16:21:02 898

转载极大似然与 EM算法

在本博客中的一篇介绍贝叶斯

2014-08-03 15:28:22 1067 1

转载朴素贝叶斯方法的应用实例----基于newsgroup文档集的贝叶斯算法实现

转载自：http://blog.csdn.net/v_july_v/article/details/7577684

2014-08-02 19:00:34 1209

转载贝叶斯分类器

（1）什么是贝叶斯（2）贝叶斯的

2014-08-02 16:49:46 917

转载联合图像分割论文摘记

[1][2]分别用潜在前景直方图的L1和L2距离来衡量前景的差异，并把该差异作为一项全局约束加入基于马尔科夫随机场的能量。通过优化该能量方程来实现共同前景的分割。但注意，不论是L1还是L2，方程整体都是NP-hard的，因此作者采用了不同的近似方法逼近准确结果，前者采用的TRGC后者采用了二次伪布尔优化（QPBO）沿着这一思路文[3]采用了一个“奖励”模型，基于该模型可以得到次模的优化解，

2014-06-16 20:31:25 1345

原创 Ncut 源代码编译问题

I am using the normalized cuts package from http://www.cis.upenn.edu/~jshi/software/Ncut_9.zip (on Windows 7)This used to work fine with Matlab2010a. However I have upgraded to Matlab2013a (32 b

2014-05-27 11:03:22 3073 2

转载 Normalized cuts and image segmentation

CMU的一篇文章，发表在PAMI上的，文章虽然是对图像进行处理，但是在其他地方都有广泛的应用。idea:如何分组，先看一个简单的问题cuts and image segmentation" title="Normalized cuts and image segmentation" style="margin:0px; padding:0px; border:0px; list-s

2014-05-25 17:18:59 1593

转载概率图模型（PGM）综述-by MIT 林达华博士

声明：本文转载自http://www.sigvc.org/bbs/thread-728-1-1.html，个人感觉是很好的PGM理论综述，高屋建瓴的总结了PGM的主要分支和发展趋势，特收藏于此。“概率模型与计算机视觉”林达华美国麻省理工学院（MIT）博士上世纪60年代, Marvin Minsky 在MIT让他的本科学生 Gerald Jay Sussm

2014-05-13 09:35:46 1050

转载斐波那契堆

结构之美——优先队列三大结构（二）——斐波那契堆（Fibonacci Heap）分类： Introduction to Algorithms 数据结构2012-11-05 20:43 1417人阅读评论(1) 收藏举报目录(?)[+]1.简介斐波那契堆是一种松散的二项堆，与二项堆的主要区别在于构成斐波那契堆得树可以不是二项树，并且这些树的

2014-04-29 16:56:07 1209

转载二项树 & 二项堆

维基百科堆对二项堆的介绍，写的很好http://zh.wikipedia.org/wiki/%E4%BA%8C%E9%A1%B9%E5%A0%86

2014-04-29 15:40:08 398

转载纹理特征之（一） LBP

LBP(Local Binary Pattern, 局部二值模式)是一种用来描述图像局部纹理特征的算子；显然，它的作用是进行特征提取，而且，提取的特征是图像的纹理特征，并且，是局部的纹理特征；原始的LBP算子定义为在3*3的窗口内，以窗口中心像素为阈值，将相邻的8个像素的灰度值与其进行比较，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0。这样，3*3领域

2014-04-19 19:16:41 1762

转载直方图匹配之（二）：巴氏系数

图像处理之相似图片识别（直方图应用篇）分类：图像处理2012-07-22 00:31 6498人阅读评论(44) 收藏举报图像处理float算法nullfilter图像处理之相似图片识别（直方图应用篇）算法概述：首先对源图像与要筛选的图像进行直方图数据采集，对采集的各自图像直方图进行归一化再使用巴氏系数算法对直方图数据进行计算，最终得出图像相似

2014-04-18 19:21:48 8454 1

转载直方图相似性度量方式（一） EMD

opencv中图像一种相似性度量方法-------EMD分类： opencv2013-09-09 14:12 262人阅读评论(0) 收藏举报opencv算法EMD算法是用来比较两幅图像相似性的方法。在颜色直方图中，由于光线等的变化会引起图像颜色值的漂移，它们会引起颜色值位置的变化，从而导致直方图匹配失效。EMD的思想是求得从一幅图像转化为另一幅图像的代价，用直

2014-04-18 17:06:37 3346

转载吉布斯采样

吉布斯采样（Gibbs Sampling)及相关算法 2013-05-10 14:16:45| 分类：学术|举报|字号订阅几个可以学习gibbs sampling的方法1，读Bishop的Pattern Recognition and Machine Learning，讲的很清楚，但是我记得好像没有例子。2，读artificial Intel

2014-03-14 16:15:13 1034

转载马尔科夫随机场与gibbs分布

1. 首先由两个定义，什么是马尔科夫随机场，以及什么是吉布斯分布马尔科夫随机场：对于一个无向图模型G，对于其中的任意节点X_i，【以除了他以外的所有点为条件的条件概率】和【以他的邻居节点为条件的条件概率】相等，那么这个无向图就是马尔科夫随机场Gibbs分布：如果无向图模型能够表示成一系列在G的最大团（们）上的非负函数乘积的形式，这个无向图模型的概率分布P(X)就称为Gi

2014-03-14 16:13:15 7052

转载马尔科夫随机场

之前自己做实验也用过MRF（Markov Random Filed，马尔科夫随机场），基本原理理解，但是很多细节的地方都不求甚解。恰好趁学习PGM的时间，整理一下在机器视觉与图像分析领域的MRF的相关知识。打字不易，转载请注明。http://blog.csdn.net/polly_yang/article/details/9716591 在机器视觉领

2014-03-14 11:45:45 1463 1

转载（EM算法）The EM Algorithm

（EM算法）The EM Algorithm EM是我一直想深入学习的算法之一，第一次听说是在NLP课中的HMM那一节，为了解决HMM的参数估计问题，使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中也提到EM可以用于贝叶斯网络中。下面主要介绍EM的整个推导过程。1. Jensen不等式回顾优化理论中的一些概念。设f是定义域为实

2014-03-11 21:28:12 433

转载似然函数

似然函数的概念（源自：维基百科）在数理统计学中，似然函数是一种关于统计模型中的参数的函数，表示模型参数中的似然性。似然函数在统计推断中有重大作用，如在最大似然估计和费雪信息之中的应用等等。“似然性”与“或然性”或“概率”意思相近，都是指某种事件发生的可能性，但是在统计学中，“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下，预测接下来的观测所得

2014-03-11 21:26:49 537

空空如也

空空如也