2015年07月_Aiphis7

转载从头到尾彻底理解KMP（2014年8月22日版）

作者：July时间：最初写于2011年12月，2014年7月21日晚10点全部删除重写成此文，随后的半个多月不断反复改进。1. 引言本KMP原文最初写于2年多前的2011年12月，因当时初次接触KMP，思路混乱导致写也写得混乱。所以一直想找机会重新写下KMP，但苦于一直以来对KMP的理解始终不够，故才迟迟没有修改本文。然近期因在北京开了个算

2015-07-29 16:01:06 271

转载推荐几个很好的编程在线测试平台 online judge

现在又不少在线测试平台，这些平台提供了很多很好的编程题，当然著名的acm中会有很多难题，如果你想挑战自己的智力极限，如果你对编程很有兴趣，那么就可以去这些平台注册，然后编程提交，跟其他编程高手一较高下。在线测试平台往往提供多种语言的支持，对于一道题，你可以用自己喜欢的语言来编写，但是要想排名更前，就得考虑语言的效率问题，所以你会发现鳌头上的高手多用c c++ 我在这儿提供几

2015-07-29 14:33:51 1905

转载字符串匹配算法研究

摘要：随着互联网的日渐庞大，信息也是越来越多，如何在海量的信息中快速查找自己所要的信息是网络搜索研究的热点所在，在这其中，字符串匹配算法起着非常重要的作用，一个高效的字符串匹配算法，可以极大的提高搜索的效率和质量，本文力图阐明字符串匹配算法的发展过程，并介绍了各个算法的特点，并给予了适当的比较和分析。关键字：字符串匹配前缀后缀 kmp算法后缀树Abstract:

2015-07-29 06:25:36 829

转载数据结构

2015-07-29 01:26:53 320

转载大型网站架构之系列——死了都要说的缓存&分布式中的异步通信

说到缓存，我想大家跟我一样都很兴奋，当我们遭遇网站性能瓶颈的时候，缓存是一剂强心针，也是一粒紧急妈富隆，从而在优化网站性能方面冠上了第一定律的帽子，我们前年在做淘应用的时候，就遭遇了性能瓶颈，短时间内采用缓存紧急优化，给我们大优化之前争取了宝贵的时间。一：缓存的种类要说缓存有多少种，太多了，比如浏览器缓存，文件缓存，片段缓存，数据库缓存等等，合理

2015-07-28 17:26:44 979

转载大型网站架构之系列

我们知道一个网站都是随着业务的发展，逐渐演变成几万服务器，几亿用户数的大型网站，经历了若干年，甚至上十年的发展成为大型网站，然而真正亲身经历这个发展过程的人已经不多了，这种人也是拿着公司股票，赶都赶不走的人，所以正因为很多人没有亲身经历过，所以对架构的演变没有深刻的了解，包括我自己在内，不过没吃过猪肉，也看过猪跑。。。一：第一代架构　　这年头创业大多都是从

2015-07-28 17:24:15 550

转载经典算法题每日演练——第二十三题鸡尾酒排序

这篇我们继续扯淡一下鸡尾酒排序，为了知道为啥取名为鸡尾酒，特意看了下百科，见框框的话，也只能勉强这么说了。要是文艺点的话，可以说是搅拌排序，通俗易懂点的话，就叫“双向冒泡排序”，我想作为码农的话，不可能不知道冒泡排序，冒泡是一个单向的从小到大或者从大到小的交换排序，而鸡尾酒排序是双向的，从一端进行从小到大排序，从另一端进行从大到小排序。从图

2015-07-28 16:38:27 402

转载经典算法题每日演练——第二十五题块状链表

在数据结构的世界里，我们会认识各种各样的数据结构，每一种数据结构都能解决相应领域的问题，每一种数据结构都像是降龙十八掌中的某一掌，掌掌毙命。。。当然每个数据结构，有他的优点，必然就有它的缺点，那么如何创造一种数据结构来将某两种数据结构进行扬长避短，那就非常完美了。这样的数据结构也有很多，比如：双端队列，还有就是今天讲的块状链表，我们都知道数组具有 O(1)的查

2015-07-28 16:38:04 388

转载经典算法题每日演练——第二十四题梳排序

这篇再看看一个经典的排序，梳排序，为什么取名为梳，可能每个梳都有自己的gap吧，大梳子gap大一点，小梳子gap小一点。上一篇我们看到鸡尾酒排序是在冒泡排序上做了一些优化，将单向的比较变成了双向，同样这里的梳排序也是在冒泡排序上做了一些优化。冒泡排序上我们的选择是相邻的两个数做比较，就是他们的gap为1，其实梳排序提出了不同的观点，如果将这里的gap设置为一定的大小，效率反

2015-07-28 16:37:35 440

转载经典算法题每日演练——第二十二题奇偶排序

这个专题因为各种原因好久没有继续下去了，MM吧。。。你懂的，嘿嘿，不过还得继续写下去，好长时间不写，有些东西有点生疏了，这篇就从简单一点的一个“奇偶排序”说起吧，不过这个排序还是蛮有意思的，严格来说复杂度是O(N2)，不过在多核的情况下，可以做到N2 /(m/2)的效率，这里的m就是待排序的个数，当m=100，复杂度为N2 /50，还行把，比冒泡要好点，因为重点是解决问题的奇思妙想

2015-07-28 16:36:44 501

转载经典算法题每日演练——第十九题双端队列

话说大学的时候老师说妹子比工作重要~，工作可以再换，妹子这个。。。所以。。。这两个月也就一直忙着Fall in love，嗨，慢慢调整心态吧，这篇就选一个简单的数据结构聊一聊，话说有很多数据结构都在玩组合拳，比如说：块状链表，块状数组，当然还有本篇的双端队列，是的，它就是栈和队列的组合体。一：概念我们知道普通队列是限制级的一端进，另一端出的FIFO形式，栈

2015-07-28 16:36:36 677

转载经典算法题每日演练——第二十一题十字链表

上一篇我们看了矩阵的顺序存储，这篇我们再看看一种链式存储方法“十字链表”，当然目的都是一样，压缩空间。一：概念既然要用链表节点来模拟矩阵中的非零元素，肯定需要如下5个元素(row,col,val,down,right)，其中：row:矩阵中的行。col:矩阵中的列。val:矩阵中的值。right:指向右侧的一个非零元素。down：指向

2015-07-28 16:36:19 537

转载经典算法题每日演练——第二十题三元组

我们知道矩阵是一个非常强大的数据结构，在动态规划以及各种图论算法上都有广泛的应用，当然矩阵有着不足的地方就是空间和时间复杂度都维持在N2上，比如1w个数字建立一个矩阵，在内存中会占用1w*1w=1亿的类型空间，这时就会遇到outofmemory。。。那么面临的一个问题就是如何来压缩矩阵，当然压缩的方式有很多种，这里就介绍一个顺序表的压缩方式：三元组。一：三元组

2015-07-28 16:35:46 653

转载经典算法题每日演练——第十七题 Dijkstra算法

或许在生活中，经常会碰到针对某一个问题，在众多的限制条件下，如何去寻找一个最优解？可能大家想到了很多诸如“线性规划”，“动态规划”这些经典策略，当然有的问题我们可以用贪心来寻求整体最优解，在图论中一个典型的贪心法求最优解的例子就莫过于“最短路径”的问题。一：概序从下图中我要寻找V0到V3的最短路径，你会发现通往他们的两点路径有很多：V0->V4->V3，V0

2015-07-28 16:35:32 1118

转载经典算法题每日演练——第十八题外排序

说到排序，大家第一反应基本上是内排序，是的，算法嘛，玩的就是内存，然而内存是有限制的，总有装不下的那一天，此时就可以来玩玩外排序，当然在我看来，外排序考验的是一个程序员的架构能力，而不仅仅局限于排序这个层次。一：N路归并排序1.概序我们知道算法中有一种叫做分治思想，一个大问题我们可以采取分而治之，各个突破，当子问题解决了，大问题也就KO了，还有一点

2015-07-28 16:34:54 520

转载经典算法题每日演练——第十四题 Prim算法

图论在数据结构中是非常有趣而复杂的，作为web码农的我，在实际开发中一直没有找到它的使用场景，不像树那样的频繁使用，不过还是准备仔细的把图论全部过一遍。一：最小生成树图中有一个好玩的东西叫做生成树，就是用边来把所有的顶点联通起来，前提条件是最后形成的联通图中不能存在回路，所以就形成这样一个推理：假设图中的顶点有n个，则生成树的边有n-1条，多一条会存在

2015-07-28 16:33:41 745

转载经典算法题每日演练——第十六题 Kruskal算法

这篇我们看看第二种生成树的Kruskal算法，这个算法的魅力在于我们可以打一下算法和数据结构的组合拳，很有意思的。一：思想若存在M={0,1,2,3,4,5}这样6个节点，我们知道Prim算法构建生成树是从”顶点”这个角度来思考的，然后采用“贪心思想”来一步步扩大化，最后形成整体最优解，而Kruskal算法有点意思，它是站在”边“这个角度在思考的，首先我有两个集合。

2015-07-28 16:33:37 549

转载经典算法题每日演练——第十五题并查集

这一篇我们看看经典又神奇的并查集，顾名思义就是并起来查，可用于处理一些不相交集合的秒杀。一：场景有时候我们会遇到这样的场景，比如:M={1,4,6,8},N={2,4,5,7}，我的需求就是判断{1,2}是否属于同一个集合，当然实现方法有很多，一般情况下，普通青年会做出O(MN)的复杂度，那么有没有更轻量级的复杂度呢？嘿嘿，并查集就是用来解决这个问题的。

2015-07-28 16:32:56 431

转载经典算法题每日演练——第十二题线段树

这一篇我们来看树状数组的加强版线段树，树状数组能玩的线段树一样可以玩，而且能玩的更好，他们在区间求和，最大，平均等经典的RMQ问题上有着对数时间的优越表现。一：线段树线段树又称"区间树”，在每个节点上保存一个区间，当然区间的划分采用折半的思想，叶子节点只保存一个值，也叫单元节点，所以最终的构造就是一个平衡的二叉树，拥有CURD的O(lgN)的时间。

2015-07-28 16:32:49 394

转载经典算法题每日演练——第十三题赫夫曼树

赫夫曼树又称最优二叉树，也就是带权路径最短的树，对于赫夫曼树，我想大家对它是非常的熟悉，也知道它的应用场景，但是有没有自己亲手写过，这个我就不清楚了，不管以前写没写，这一篇我们来玩一把。一：概念赫夫曼树里面有几个概念，也是非常简单的，先来看下面的图：1. 基础概念节点的权：节点中红色部分就是权，在实际应用中，我们用“字符”出现的次数

2015-07-28 16:32:01 492

转载经典算法题每日演练——第九题优先队列

前端时间玩小爬虫的时候，我把url都是放在内存队列里面的，有时我们在抓取url的时候，通过LCS之类的相似度比较，发现某些url是很重要的，需要后端解析服务器优先处理，针对这种优先级比较大的url，普通的队列还是苦逼的在做FIFO操作，现在我们的需求就是优先级大的优先服务，要做优先队列，非堆莫属。一：堆结构 1:性质堆是一种很松散的序结构树，

2015-07-28 16:31:16 496

转载经典算法题每日演练——第十一题 Bitmap算法

在所有具有性能优化的数据结构中，我想大家使用最多的就是hash表，是的，在具有定位查找上具有O(1)的常量时间，多么的简洁优美，但是在特定的场合下：①：对10亿个不重复的整数进行排序。②：找出10亿个数字中重复的数字。当然我只有普通的服务器，就算2G的内存吧，在这种场景下，我们该如何更好的挑选数据结构和算法呢？一：问题分析这年头，

2015-07-28 16:31:06 422

转载经典算法题每日演练——第十题树状数组

有一种数据结构是神奇的，神秘的，它展现了位运算与数组结合的神奇魅力，太牛逼的，它就是树状数组，这种数据结构不是神人是发现不了的。一：概序假如我现在有个需求，就是要频繁的求数组的前n项和，并且存在着数组中某些数字的频繁修改，那么我们该如何实现这样的需求？当然大家可以往真实项目上靠一靠。① 传统方法：根据索引修改为O(1)，但是求前n项和为O(n)。②

2015-07-28 16:30:44 384

转载经典算法题每日演练——第七题 KMP算法

在大学的时候，应该在数据结构里面都看过kmp算法吧，不知道有多少老师对该算法是一笔带过的，至少我们以前是的，确实kmp算法还是有点饶人的，如果说红黑树是变态级的，那么kmp算法比红黑树还要变态，很抱歉，每次打kmp的时候，输入法总是提示“看毛片”三个字,嘿嘿，就叫“看毛片算法”吧。一：BF算法如果让你写字符串的模式匹配，你可能会很快的写出朴素的bf算法，至

2015-07-28 16:30:15 485

转载经典算法题每日演练——第八题 AC自动机

上一篇我们说了单模式匹配算法KMP，现在我们有需求了，我要检查一篇文章中是否有某些敏感词，这其实就是多模式匹配的问题。当然你也可以用KMP算法求出，那么它的时间复杂度为O(c*(m+n))，c：为模式串的个数。m：为模式串的长度,n:为正文的长度，那么这个复杂度就不再是线性了，我们学算法就是希望能把要解决的问题优化到极致，这不，AC自动机就派上用场了。其实AC自动机就

2015-07-28 16:29:31 491

转载经典算法题每日演练——第六题协同推荐SlopeOne 算法

相信大家对如下的Category都很熟悉，很多网站都有类似如下的功能，“商品推荐”,"猜你喜欢“，在实体店中我们有导购来为我们服务，在网络上我们需要同样的一种替代物，如果简简单单的在数据库里面去捞，去比较，几乎是完成不了的,这时我们就需要一种协同推荐算法，来高效的推荐浏览者喜欢的商品。一：概念 SlopeOne的思想很简单，就是用均值化的思想来掩盖个

2015-07-28 16:29:02 524

转载经典算法题每日演练——第五题字符串相似度

这篇我们看看最长公共子序列的另一个版本，求字符串相似度(编辑距离)，我也说过了，这是一个非常实用的算法，在DNA对比，网页聚类等方面都有用武之地。一：概念对于两个字符串A和B，通过基本的增删改将字符串A改成B，或者将B改成A，在改变的过程中我们使用的最少步骤称之为“编辑距离”。比如如下的字符串：我们通过种种操作，痉挛之后编辑距离为3，不知道你看出来了没有？

2015-07-28 16:28:32 477

转载经典算法题每日演练——第四题最长公共子序列

一：作用最长公共子序列的问题常用于解决字符串的相似度，是一个非常实用的算法，作为码农，此算法是我们的必备基本功。二：概念举个例子，cnblogs这个字符串中子序列有多少个呢？很显然有27个，比如其中的cb,cgs等等都是其子序列，我们可以看出子序列不见得一定是连续的，连续的那是子串。我想大家已经了解了子序列的概念，那现在可

2015-07-28 16:27:54 357

转载经典算法题每日演练——第三题猴子吃桃

猴子第一天摘下若干个桃子，当即吃了一半，还不过瘾就多吃了一个。第二天早上又将剩下的桃子吃了一半，还是不过瘾又多吃了一个。以后每天都吃前一天剩下的一半再加一个。到第10天刚好剩一个。问猴子第一天摘了多少个桃子？分析: 这是一套非常经典的算法题，这个题目体现了算法思想中的递推思想，递归有两种形式，顺推和逆推，针对递推，只要我们找到递推公式，问题就迎刃而

2015-07-28 16:27:15 515

转载经典算法题每日演练——第二题五家共井

古代数学巨著《九章算数》中有这么一道题叫“五家共井，甲二绠（汲水用的井绳）不足，如（接上）乙一绠；乙三绠不足，如丙一绠；丙四绠不足，如丁一绠；丁五绠不足，如戊一绠；戊六绠不足，如甲一绠，皆及。意思就是说五家人共用一口井，甲家的绳子用两条不够，还要再用乙家的绳子一条才能打到井水；乙家的绳子用三条不够，还要再用丙家的绳子一条才能打到井水；丙家的绳子用四条不够，还要再用丁家的绳子

2015-07-28 16:25:19 645

转载经典算法题每日演练——第一题百钱买百鸡

百钱买百鸡的问题算是一套非常经典的不定方程的问题，题目很简单：公鸡5文钱一只，母鸡3文钱一只，小鸡3只一文钱，用100文钱买一百只鸡,其中公鸡，母鸡，小鸡都必须要有，问公鸡，母鸡，小鸡要买多少只刚好凑足100文钱。分析：估计现在小学生都能手工推算这套题，只不过我们用计算机来推算，我们可以设公鸡为x，母鸡为y，小鸡为z，那么我们可以得出如下的不定方程，

2015-07-28 16:25:17 845

转载 Treap树

我们知道，二叉查找树相对来说比较容易形成最坏的链表情况，所以前辈们想尽了各种优化策略，包括AVL，红黑，以及今天要讲的Treap树。 Treap树算是一种简单的优化策略，这名字大家也能猜到，树和堆的合体，其实原理比较简单，在树中维护一个"优先级“，”优先级“采用随机数的方法，但是”优先级“必须满足根堆的性质，当然是“大根堆”或者“小根堆”都无所谓，比如下面的一棵

2015-07-28 16:19:58 393

转载从Trie树（字典树）谈到后缀树

常关注本blog的读者朋友想必看过此篇文章：从 B树、B+树、B*树谈到R 树，这次，咱们来讲另外两种树：Tire树与后缀树。不过，在此之前，先来看两个问题。第一个问题：一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。之前在此文：海量数据处理面试题集锦与Bit-map 详解中给出的参考答案：用trie树统计每个词出

2015-07-28 15:30:00 765

转载后缀树的构造方法-Ukkonen详解

最近在学习后缀树的构造，在网上找了好久发觉国内详解它的构造的文章胜少，在苦苦寻觅了许久，终于发现了一个网友翻译的一篇文章，很好，于是我转帖出来，希望能有更多的人受益，也希望国内多一些英文高手多翻译一些国外的技术文章，好让我们这些英文很烂的人受益，呵呵！后缀树Fast String Searching With Suffix Trees 原著Mark

2015-07-28 15:20:29 769

转载 C++学习之深入理解虚函数--虚函数表解析

转自：http://blog.csdn.net/haoel/article/details/1948051/前言 C++中的虚函数的作用主要是实现了多态的机制。关于多态，简而言之就是用父类型别的指针指向其子类的实例，然后通过父类的指针调用实际子类的成员函数。这种技术可以让父类的指针有“多种形态”，这是一种泛型技术。所谓泛型技术，说白了就是试图使用不变的代码来实现可变的算

2015-07-28 15:18:43 473

转载字符串模式匹配算法——BM、Horspool、Sunday、KMP、KR、AC算法一网打尽

字符串模式匹配算法——BM、Horspool、Sunday、KMP、KR、AC算法一网打尽本文内容框架：§1 Boyer-Moore算法§2 Horspool算法§3 Sunday算法§4 KMP算算法§5 KR算法§6 AC自动机§7 小结 §1 Boyer-Moore（BM）算法

2015-07-28 15:17:17 551

转载字符串匹配算法总结

转自：http://blog.csdn.net/zdl1016/archive/2009/10/11/4654061.aspx 我想说一句“我日，我讨厌KMP！”。KMP虽然经典，但是理解起来极其复杂，好不容易理解好了，便起码来巨麻烦！老子就是今天图书馆在写了几个小时才勉强写了一个有bug的、效率不高的KMP，特别是计算next数组的部分。其实，比KMP算法速度快的

2015-07-28 15:13:40 500

转载【串和序列处理 1】PAT Tree 子串匹配结构

Patricia Tree 简称PAT tree。它是 trie 结构的一种特殊形式。是目前信息检索领域应用十分成功的索引方法，它是1992年由Connel根据《PATRICIA——Patrical Algorithm to Retrieve Information Coded in Alphanumeric》算法发展起来的。 PAT tree 在字符串子串匹配上有这非常优异的表

2015-07-28 10:37:50 492

转载从Trie树（字典树）谈到后缀树

咱们先来看一道面试题：一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词，请给出思想，给出时间复杂度分析。之前在此文：海量数据处理面试题集锦与Bit-map详解中给出的参考答案：用trie树统计每个词出现的次数，时间复杂度是O(n*le)（le表示单词的平均长度），然后是找出出现最频繁的前10个词。也可以用堆来实现（具体的操作可参考第三章、寻找最小的k个数），时间

2015-07-28 10:33:23 416

转载笔试题汇集之常见算法篇（C/C++）

//二分查找算法int BSearch(int a[],int key,int n){ int low = 0; int high =n-1; int mid; while(low { mid =(low+high)/2; if(a[mid]== key) returnmid;

2015-07-28 10:07:27 451

空空如也

空空如也