2013年12月_timegoesby_001

原创搜索引擎----以lucene为例进行简单的搜索过程描述

Lucene使用的是倒排文件索引结构。这种结构组织值得学习过程主要为几步：一， 3个文件词典索引文件----由word找出对应的docid 的映射文件而为了更高效的准确性加入了词频，位置描述信息; 只是这两个信息各自为独立的文件,即词频索引文件，位置索引文件，而这两个索引文件指针分别存在于词典文件中，也就是说查一个词时从词典文件可以得到这两个文件的对应指针

2013-12-22 23:28:46 813

原创转移概率矩阵------3Q大战背后的数学

前言：1，为什么各种网络大战前期都会有用户支持度相关的调查问卷?2，为什么发布某个产品前基本可以推断出产生的用户数？3，为什么3Q大战后各公司不担心自己软件的装机量?4，对用户桌面的干扰是否一时头脑发热？难道这只是纯商业吗？难道公司就不担心重要决策失败导致的严重的后果？如果我们认为这些都是一时性的拍拍脑门的结果，那么我想这就是我们与决策者的区别下面我仅从这个现

2013-12-09 20:05:17 4576

原创贝叶斯定理-----"由果溯因"类型问题的启发

在想说明贝叶斯定理这个的时候，想起了大学时老师的一句话“贝叶斯即是由结果找原因"，所以在标题中的贝叶斯定理后面特意补充说明了"由果溯因"类型的启发很多地方，包括一些书和网上都有这个介绍，这里我只是想把这个说清楚点，以便您不和看完后再百度或google，在提到“由果追溯原因” 这一过程与可能的应用前，有必要了解一下这个定理是怎么回事1，条件概率所谓"条件概率"

2013-12-08 01:14:40 4653

原创费茨定律---用户操作代价最小化的基础

你是否想过以下几个为什么？1,为什么产品的设计上要简单,对用户的操作代价尽量最小化?2,为什么各大搜索引擎提供的页面中布局的位置都差不多？难道这是因为抄袭，还是因为用户的习惯就是这样？3,为什么搜索引擎结果最好的要放在第一页，最好中的最好放在前三条搜索结果中？其实这一切并非我们感觉上的方便原因，当然这对用户来说确实也方便，而背后确存在于数学原理中这一原理就是费茨

2013-12-07 23:39:37 1313

原创布尔代数与网页搜索

网页搜索和布尔代数借用百科布尔代数内容如下：基本理论在布尔代数上的运算被称为AND(与)、OR(或)和NOT(非)。代数结构要是布尔代数，这些运算的行为就必须和两元素的布尔代数一样(这两个元素是TRUE(真)和FALSE(假))。亦称逻辑代数.与：只有两个值都是true时结果才为true或：只要有一个为true结果就为true非：取相反值参考《数

2013-12-06 17:47:33 1074

原创为什么搜索质量上google是稳步提高的？

除了搜索老大google外，国内也有几个搞搜索的大公司，其实总体上说都是不错的这些年，我们自己的搜索一直在努力提高，不管是质量上还是用户体验上，可是，一与google这个老大相比，我们总是还差的很远很远。这到底是为什么呢？为什么连我们自己都知道与她差很远呢？既然知道那么差的到底在什么地方？有没办法追赶上（指的是紧紧随后）首先,从技术上来讲，不管我们用的什么所谓高精尖技术，必须承

2013-12-06 17:13:42 1014

原创大数定律---频率代替概率

为什么我们在搜索引擎的某些计算公式过程中常用某个词的出现频率来代替概率p 呢？这个代替准不准，有什么依据？答案就是大数定律，从下面的公式我们可以看到，对于抽样的样本量一定要大，否则用频率代替概率是不准确的表现形式大数定律有若干个表现形式。这里仅介绍高等大学概率论要求的常用的三个重要定律：切比雪夫大数定理设是一列两两不相关的随机变量，每

2013-12-03 21:00:09 5386

原创用log平滑数据波动

有是我们设计一个算法的时候，在算法中会有很多影响因素，例如我们评价某个搜索引擎结果质量的时候，用户的关注度（直观上接点击量）是一个影响因素。假如我们设计了一个函数： S = (1/pos) * log(N) * W(url)其中S为分数值，pos为结果各项所在的位置,比如百度一个词第一页的10条结果那么pos依次为1,2,3...10N为对应位置的点击数，W(url)表示

2013-12-03 20:47:42 3348

原创余弦定理----相似性计算

在向量中，余弦定理为 cos(x) = / |a||b|通常用这个来进行相似度计算但这里计算的前提是a,b两个向量空间维数要对齐，（通常操作都是进行归一化，例如两个不一致时要维数小的向大的看齐）由于夹角越小表现为两个向量越接近重合（也就是越相似）,表现到这个公式上就是cos(x)得到的值较大；所以通常用这个余弦定理来进行相似度计算句1: 我是

2013-12-03 20:34:47 1761

原创工厂模式

工厂意即生产某个部件，例如生产汽车，手表。。。。等产品在这个关系中，产品可能有多种多样，在最初的生产中，可以只为某种产品定制生产，即只生产某种类的产品，之后由于产品需要创新发展，便有了多样化，此时工厂需要针对不同的产品进行不同的模板生产；发展到后期，工厂只有一个是不能很好的完成某种产品需求，这就要把工作分离开，例如工厂1,工厂2。。。。例如上面即为简单工厂模式

2013-12-03 20:04:49 582

原创单例模式示

动机对于系统中的某些类来说，只有一个实例很重要，例如，一个系统中可以存在多个打印任务，但是只能有一个正在工作的任务；一个系统只能有一个窗口管理器或文件系统；一个系统只能有一个计时工具或ID(序号)生成器。如在Windows中就只能打开一个任务管理器。如果不使用机制对窗口对象进行唯一化，将弹出多个窗口，如果这些窗口显示的内容完全一致，则是重复对象，浪费内存资源；如果这些窗口显示的内容不一致，则意

2013-12-03 15:33:02 619

原创设计----基本原则

开闭原则开：从设计角度看，应在功能等扩展上开放，即利于扩展，可维护性好闭：即对设计的修改要关闭这条原则意思是：一个设计应当方便扩展同时减少或不需要修改（对扩展开放，对修改关闭）

2013-12-03 14:28:19 567

原创 map-reduce与hash关系

之前写了个内容，提醒对map的输入文件要切分尽量多点，以便提交map参与数量从而提升总体处理效率为什么多切分就会多map呢，其实还是因为提供给map的输入文件会进行hash，map启动的数量就是这个hash的数量所以增加切分粒度可以提升效率

2013-12-02 19:52:09 1009

原创搜索引擎中suggestion背后的算法结构

我们使用某个搜索引擎的时候，往往你刚输入开头，页面就会给出一些我们极有可能想要查的内容，例如今天想搜索玉免号内容，刚打了个玉字，下面就给出了玉兔提示(suggestion)那么这是怎么做到的呢？来看下百度百科对字典数据描述,我想你就知道答案了至于有多个suggestion结果的时候如何选择的问题，可以根据某时间内用户日志中对查询词关注度排序得到另外，这个

2013-12-02 16:18:13 2103

原创如何对程序进行rpm打包发布

正如之前提到的，一般项目（程序）的目录包含pkg文件夹这个中应该编写与打包对应的例程，例如我目录下结构为[clouduser@blog /home/clouduser/ZK_Serviced]$ ls AUTHORS bin data include libs logs Makefile pkg README scripts srcpkg目录下

2013-12-02 14:05:02 2187

原创服务端研发应具备的技能(4)

2,数据传输2.1 gearman2.2 RPC先插一下百度百科内容：RPC（Remote Procedure Call Protocol）——远程过程调用协议，它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用

2013-12-02 11:45:56 881

原创服务端研发应具备的技能(3)

2,数据传输我这里指的数据传输意思是当我们写好处理程序时往往由于需要多机来同时处理以达到处理性能要求（单机情况下不能达到处理性能要求）而这时需要各处理机程序可以无序化的对等条件下处理数据，这样可以方便新机器上程序部署扩充这里我常用的就是两种方式1，gearman方式； 2，RPC方式用起来很方便也很灵活2.1 gearman队列如下为图示简单描述：我

2013-12-02 11:25:58 1025

原创 map-reduce程序提升处理效率的方式

这里假设你已经会写简单的map-reduce 程序（本博对应搜索技术分类中我介意的介绍过map-reduce使用方法）那么同样一个map-reduce程序，输入的数据量大小一样，有什么办法可以加快map部分的计算效率呢？我先说一下碰到的实际问题：同样一批日志一天一个目录如2013-12-01,目录下为各小时文件如****00.log......****01.log ...

2013-12-01 16:14:30 885

原创 hadoop之hive在数据检索中的用法 (2)

上面提到的创建表的hive_table中涉及几个问题需要先说明一下hive表。1. 普通表普通表的创建，一个表，就对应一个表名对应的文件。2. 外部表 EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路

2013-12-01 16:03:41 908

cloudusers的专栏