自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

pennyliang的专栏

梁斌的博客

  • 博客(23)
  • 资源 (2)
  • 收藏
  • 关注

原创 在空间复杂度O(1)的条件下实现归并排序[原创]

第一:对一个L1,L2,的子序列,分别长度为,m,n.可以用min(m,n)的空间协助进行归并排序,且仅对该额外空间的值得顺序有影响。详细参见sara basse的那本算法书.第二:对于一个已经排序的L1,L2,总长度假定为u,为了方便分析,假定L1的长度=L2的长度=u/2,切分成sqrt(u)的个块,每个快有sqrt(u)个数,然后对L1,的最后一块和L2的最后一块归并,L2的最后一块存放

2006-09-23 17:21:00 10081

原创 NB算法解析,搜索引擎算法

设每个数据样本用一个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别用C1, C2,…,Cm表示。给定一个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是P(Ci|X)>P(Cj|X) 1≤j≤m,j≠i 【P(Ci|X)表示文本X出现,分在Ci类的概率】根据贝叶斯定理由于P(X)对于所有类为常数,最大化后

2006-09-22 13:59:00 3278

原创 隐性语义检索(LSI)和搜索引擎优化 【转www.chinageren.com 】

最近,当人们用“paypal ”在Google中进行搜索,排名第一位的却不再是国际知名网络支付公司Paypal的官方网站Paypal.com了。这一现象显然反映了Google正在加大对那些采用了“异常”的回向链接文字(锚文字)的惩罚力度。虽然作为典型例子的Paypal在Google中出现的排名问题已经得到了纠正,但仍有成千上万名不见经传的小网站们正遭受着同样的困扰:那就是即使用公司名称在Googl

2006-09-19 23:09:00 3025

原创 算法导论习题Exercises 14.2-5

Exercises 14.2-5: ⋆ We wish to augment red-black trees with an operation RB-ENUMERATE(x, a, b) that outputs all the keys k such that a ≤ k ≤ b in a

2006-09-17 09:56:00 2768 1

原创 算法导论[Exercises 14.2-4]

Exercises 14.2-4: ⋆ Let * be an associative binary operator, and let a be a field maintained in each node of a red-black tree. Suppose that we want

2006-09-17 09:27:00 2700

原创 算法导论习题14.1-7

Exercises 14.1-7 Show how to use an order-statistic tree to count the number of inversions (see Problem 2-4) in an array of size n in time O(n lg n

2006-09-17 09:03:00 2063 3

原创 Generalized Vector Space Model

对一个查询q, 包括t1,t2,...tm个词,在d1,d2,....dn,这n个文档中,推荐那一个给用户更加恰当.基本xiangf如果一个文档包含了这t1,t2,...tm这m个词的话,并且出现频率都很高的话,那么可以认定这个文档可能比较好. 对∑中的每一个词ti,按其在所有文档中出现的情况(词频)定义一个向量vec(ti),称为( occurrence patterns )向量定义在文

2006-09-16 20:19:00 1721

原创 TF/IDF

[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。]我们还是看上回的例子,查找关于“原子能的应用”的网页。我们第一步是在索引中找到包含这三个词的网页(详见关于布尔运算的系列)。现在任何一个搜索

2006-09-16 14:09:00 4837 3

转载 “信息熵”(shāng) 的概念【转】

信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解

2006-09-16 13:58:00 2886 2

原创 自动文本分类方法

 nRocchio方法 nNaïve Bayes nkNN方法 n决策树方法decision tree nDecision Rule ClassifiernThe Widrow-Hoff Classifier n神经网络方法Neural Networksn支持向量机SVM n基于投票的方法(voting method)  

2006-09-11 20:03:00 1697

原创 Zipf's law分析

简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词

2006-09-11 14:03:00 6401

原创 向量空间模型(Vector Space Model)

向量空间模型(Vector Space Model)M个无序特征项ti ,词根/词/短语/其他每个文档dj可以用特征项向量来表示(a1j,a2j,…,aMj)权重计算,N个训练文档AM*N= (aij)文档相似度比较1)Cosine计算,余玄计算的好处是,正好是一个介于0到1的数,如果向量一直就是1,如果正交就是0,符合相似度百分比的特性,余玄的计算方法为,向量内积/各个向量的模的乘积.2

2006-09-11 13:10:00 4680

原创 Collaborative Filtering算法

协同过滤(collaborative filtering CF)技术是当前最为成功和广泛使用的个性化推荐技术,传统的协同过滤技术也叫基于用户的协同过滤,(user—based CF).它是通过相同或相近兴趣的用户对资源的评价向用户推荐信息的.协同过滤技术的优点是能为用户发现更多新的兴趣.但是,传统的协同过滤技术存在3个难于解决的问题:算法的可扩展性、评价数据的稀疏性和初始资源推荐问题 

2006-09-10 19:51:00 1914

原创 推荐算法之投票算法,用户行为估计算法

定义矩阵A,Aij = 1 :表示用户i读了文档j.Aij = 0 :表示用户i未读了文档j.定义B = A*AtBij=用户i和用户j都看过的文档总数,对角线表示用户i看过的文档总数可以采用投票算法给出用户推荐,即文档被阅读机会越多的则被优先推荐.下面计算用户i对文档j的相关性1)计算用户i和用户j的相关性, Bij/|Vi|*|Vj|. 向量见夹角余炫.令为Wi

2006-09-10 18:23:00 2946

原创 向量相似度的计算和向量夹角余旋的关系

在向量空间模型中,文本泛指各种机器可读的记录。用D(Document)表示,特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,1http://marssection.bbs.topzj.com/attachments/m12//12/85/12856/forumid_199

2006-09-09 22:10:00 6492 2

原创 算法导论【思考题Problems 12-2: Radix trees 】

Given two strings a = a0a1...ap and b = b0b1...bq, where each ai and each bj is in some ordered set of characters, we say that string a is lexicographically less than string b if either t

2006-09-09 21:58:00 2542

原创 搜索引擎时间分析框架

 关于ifDateUnit函数的分析bool NewsPageAnalysis::ifDateUnit(int unit, tParsedDate & datep, bool & iffutretime){}函数包括如下启发式规则,举例如下:1.        如果文本单元是连接,那么不可能是日期2.        如果文本单元出现在开头8个字节或者80个字节以后的部分都不

2006-09-07 16:04:00 1255

转载 搜索引擎的工作原理

这篇文章中,我们介绍了google,它是一个大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24000000个网页。我们可以从 下载。设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量

2006-09-06 22:17:00 5489 3

原创 算法导论[Exercises 9.3-8 ]

Exercises 9.3-8Let X[1 .. n] and Y [1 .. n] be two arrays, each containing n numbers already in sorted order. Give an O(lg n)-time algorithm to find the median of all 2n elements in arrays X and Y. 

2006-09-06 21:19:00 3868

原创 GDB调试例子1

 1 #include 2 3 static char buff [256]; 4 static char* string; 5 int main () 6 { 7   printf ("Please input a string: "); 8   gets (string);   9   printf ("/nYour string is: %s/n", string); 10 } 上面这个

2006-09-06 15:41:00 2630

原创 算法导论思考题[6-2]

MINIMUM(A)1  min ← A[1]2  for i ← 2 to length[A]3         do if min > A[i]4                then min ← A[i]5  return min 求第四行的期望值O(lgn)当i = j时,它可能的位置为A[j-1] 而是>A[j-1]的概率也就是需要执行第四行的概率是1/j1/2+1/3+.

2006-09-05 23:05:00 1786

原创 算法导论习题[Exercises 32.1-3 ]

Suppose that pattern P and text T are randomly chosen strings of length m and n, respectively, from the d-ary alphabet Σd = {0, 1, . . . , d - 1}, where d ≥ 2. Show that the expected number of charact

2006-09-05 22:45:00 2832 1

原创 算法导论习题[Exercises 9.3-7 ]

Describe an O(n)-time algorithm that, given a set S of n distinct numbers and a positive integer k ≤ n, determines the k numbers in S that are closest to the median of S.solution:1: procedure k_Cl

2006-09-05 22:36:00 2707

Topology-Calculation-Tuning本学期一份组内报告

这是一个在组内做的技术报告,从技术的观点,介绍了布局,计算和调优的工作,这些工作是一个工程师的必修课,这里以点带面的进行了展开,是为了表明,编代码不是盲目的写,而是要有计划,有层次,有把握地去写,我水平有限,这些只是自己的思考,因为我还刚上路呢。。。

2011-01-19

微软企业文化内训资料

微软企业文化内训资料,该资料主要介绍微软组织架构,价值观,管理理念等等

2010-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除