houzengjiang-CSDN博客

转载 Bloom Filter 算法的实现

bloom.h>>=#ifndef __BLOOM_H__#define __BLOOM_H__#includetypedef unsigned int (*hashfunc_t)(const char *);typedef struct { size_t asize; unsigned char *a; size_t nfuncs; hashfunc_t *funcs;}

2014-12-17 16:54:55 864

转载常用hash函数

常用的字符串Hash函数还有ELFHash，APHash等等，都是十分简单有效的方法。这些函数使用位运算使得每一个字符都对最后的函数值产生影响。另外还有以MD5和SHA1为代表的杂凑函数，这些函数几乎不可能找到碰撞。常用字符串哈希函数有 BKDRHash，APHash，DJBHash，JSHash，RSHash，SDBMHash，PJWHash，ELFHash等等。对于以上几种哈希函数，我

2014-12-17 16:30:21 3005

转载 GCC　__sync_*系列的built-in函数，无锁化编程

gcc从4.1.2提供了__sync_*系列的built-in函数，用于提供加减和逻辑运算的原子操作。其声明如下：type __sync_fetch_and_add (type *ptr, type value, ...)type __sync_fetch_and_sub (type *ptr, type value, ...)type __sync_fetch_and

2014-11-08 10:58:29 3736

转载 C++资源大全

关于 C++ 框架、库和资源的一些汇总列表，由 fffaraz发起和维护。内容包括：标准库、Web应用框架、人工智能、数据库、图片处理、机器学习、日志、代码分析等。标准库C++ Standard Library：是一系列类和函数的集合，使用核心语言编写，也是C++ISO自身标准的一部分。Standard Template Library：标准模板库C POSIX library

2014-11-05 15:25:19 678

转载 dlmalloc源码分析

我们写过很多C程序了，经常会分配内存。记得刚学C语言时老师说过，可以向两个地方申请内存：一个是栈、一个是堆。小块内存向栈申请，函数调用结束后程序会自动释放内存。大块内存向堆申请，记得一定要自己释放，否则会造成内存泄漏。向堆申请内存直接调用malloc()就可以了，参数是你申请的内存量。释放内存时直接调用free()就可以了，参数是内存块指针。看似平静的海面，海底则波涛汹涌。当时

2014-11-05 14:55:44 3561

大家都知道，目前BT应用的发展具有一个非常显著的趋势，那就是用来交换电影、游戏、ISO等大尺寸的数据文件。然而我们也能够观察到另一个事实，那就是：下载文件所对应的索引文件(.torrent)也越来越大，越来越难以下载；这是因为在索引文件中保存了被下载文件中所有数据块的20字节SHA1校验值，而文件越大，数据块越多，则.torrent文件越长(块数=文件长度/数据块长，Bit Torrent标准协议

2013-03-04 20:41:17 2198

转载分布式服务框架 Zookeeper -- 管理分布式环境中的数据

安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。单机模式单机安装非常简单，只要获取到 Zookeeper 的压缩包并解压到某个目

2013-01-01 23:31:16 1359

转载基于ZooKeeper的分布式Session实现

1．认识ZooKeeperZooKeeper—— “动物园管理员”。动物园里当然有好多的动物，游客可以根据动物园提供的向导图到不同的场馆观赏各种类型的动物，而不是像走在原始丛林里，心惊胆颤的被动物所观赏。为了让各种不同的动物呆在它们应该呆的地方，而不是相互串门，或是相互厮杀，就需要动物园管理员按照动物的各种习性加以分类和管理，这样我们才能更加放心安全的观赏动物。回到我们企业级

2013-01-01 23:13:14 3686

转载 ZooKeeper入门简介

ZooKeeper 是什么？ ZooKeeper 顾名思义动物园管理员，他是拿来管大象(Hadoop) 、蜜蜂(Hive) 、小猪(Pig) 的管理员， Apache Hbase和 Apache Solr 以及LinkedIn sensei 等项目中都采用到了 Zookeeper。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，ZooKee

2013-01-01 22:16:08 34168 2

转载 Redis运行流程源码解析

概述　　Redis通过定义一个 struct redisServer 类型的全局变量server 来保存服务器的相关信息（比如：配置信息，统计信息，服务器状态等等）。启动时通过读取配置文件里边的信息对server进行初始化（如果没有指定配置文件，将使用默认值对sever进行初始化），初始化的内容有：起监听端口，绑定有新连接时的回调函数，绑定服务器的定时函数，虚拟内存初始化，log初始化等等

2012-11-10 23:24:08 2480

转载深入剖析Redis RDB持久化机制

rdb是redis保存内存数据到磁盘数据的其中一种方式(另一种是AOF)。Rdb的主要原理就是在某个时间点把内存中的所有数据的快照保存一份到磁盘上。在条件达到时通过fork一个子进程把内存中的数据写到一个临时文件中来实现保存数据快照。在所有数据写完后再把这个临时文件用原子函数rename(2)重命名为目标rdb文件。这种实现方式充分利用fork的copy on write。　　另外一种

2012-11-10 23:22:31 3232

转载主从复制

源码版本：redis 2.4.4redis的主从复制实现简单却功能强大，其具有以下特点：1. 一个master支持多个slave连接，slave可以接受其他slave的连接2. 主从同步时，master和slave都是非阻塞的redis主从复制可以用来：1. data redundancy 2. slave作为master的扩展，提供一些read-only的服务3.

2012-11-06 17:05:28 1762

转载 snapshot

源码版本：redis 2.4.4redis的snapshot通过将内存中的所有数据写入文件，以达到持久化的目的。需要注意的是：1）snapshot方式不是追加，而是将内存所有数据写入文件，snapshot间隔短的话，会造成磁盘IO频繁2）在上一次做snapshot到当前，如果机器crash，期间修改过的数据会丢失redis支持两种方式做snapshot1）客户端发送

2012-11-06 17:04:10 1393

转载 AOF

源码版本：redis 2.4.4AOF(append-only fashion)是redis持久化利器之一。通过写log的方式，以满足在需要的时候，重建数据的需求。the AOF persistence logs every write operation received by the server, that will be played again at server start

2012-11-06 16:59:46 3968

转载内存管理

源码版本：redis 2.4.4redis内存相关函数都放在zmalloc.h zmalloc.c中redis中可以使用tcmalloc、jemallocMakefile：[cpp] view plaincopyifeq ($(USE_TCMALLOC),yes) ALLOC_DEP= ALLOC_LINK

2012-11-06 16:48:22 841

转载 Event-driven programming library

源码版本：redis 2.4.4Event-driven programming libray，提到这个，很容易想到如雷贯耳的libevent库（libeven封装了以下三种事件的响应:IO事件,定时器事件,信号事件）。redis的没有采用庞大的libevent库，而是自己写了一个，牺牲了一些平台通用性，但是性能非常强劲。memcache采用了libevent，有人认为这是redis的优

2012-11-06 16:45:20 1748

转载初识Redis

1. 概述redis官网定义：Redis is an open source, advanced key-value store. It is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets.Redis 是

2012-11-06 16:41:13 549

转载在多台服务器上简单实现Redis的数据主从复制

Redis的主从复制功能非常强大，一个master可以拥有多个slave，而一个slave又可以拥有多个slave，如此下去，形成了强大的多级服务器集群架构。下面我演示下怎样在多台服务器上进行Redis数据主从复制。这里我假设有两台服务器，一台是Windows操作系统（局域网IP：192.168.3.82），一台是Linux操作系统（局域网IP：192.168.3.90），在两个操作系统都安装re

2012-11-06 16:30:34 1763

转载 Redis源码解析（1）——源码目录介绍

概念 redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不同方式的排序。与memcached一样

2012-11-06 16:26:27 1343

转载老鼠试毒瓶问题

大家应该都听说过这个老题目：有 1000 个一模一样的瓶子，其中有 999 瓶是普通的水，有一瓶是毒药。任何喝下毒药的生物都会在一星期之后死亡。现在，你只有 10 只小白鼠和一星期的时间，如何检验出哪个瓶子里有毒药？这个问题的答案也堪称经典：把瓶子从 0 到 999 依次编号，然后全部转换为 10 位二进制数。让第一只老鼠喝掉1到1000所有二进制数右起第一位是 1 的瓶子，让第二只老鼠喝

2012-09-04 00:10:51 1932

转载找数

题目：一个int数组，里面数据无任何限制，要求求出所有这样的数a[i]，其左边的数都小于等于它，右边的数都大于等于它。能否只用一个额外数组和少量其它空间实现。分析：最原始的方法是检查每一个数 array[i] ，看是否左边的数都小于等于它，右边的数都大于等于它。这样做的话，要找出所有这样的数，时间复杂度为O(N^2)。其实可以有更简单的方法，我们使用额外

2012-09-04 00:05:17 651

转载对称子字符串的最大长度

题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。方法：1. 值得注意的是，回文的2种形式，aba, abba;1.对于aba的形式，从字符串中的每一个位置i，像两边扩展一位如果a[i-1]=a[i+1]，那么继续扩展，直到a[i-k]!=a[i+k]或者i-k,i+k

2012-09-04 00:02:57 669

转载丑数Ugly Number查找算法

我们把只包含因子2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14不是，因为它包含因子7。习惯上我们把1当做是第一个丑数。求按从小到大的顺序的第1500个丑数下面是一道在网络上广为流传的面试题，据说google曾经采用过这道题。所谓一个数m是另一个数n的因子，是指n能被m整除，也就是n % m == 0。根据丑数的定义，丑数只能被2、3和5整除。也就是说如

2012-09-03 23:50:10 9149

转载字符串的排列组合问题

问题1 ：输入一个字符串，打印出该字符串中字符的所有排列。例如输入字符串abc，则输出由字符a、b、c所能排列出来的所有字符串abc、acb、bac、bca、cab和cba。思路：这是个递归求解的问题。递归算法有四个特性：（1)必须有可达到的终止条件，否则程序将陷入死循环；（2）子问题在规模上比原问题小；（3）子问题可通过再次递归调用求解；（4）子问题的解应能组合成整个问题

2012-09-02 23:35:09 514

转载一个整型数组里除了两个数字之外，其他的数字都出现了两次

题目：一个整型数组里除了两个数字之外，其他的数字都出现了两次。请写程序找出这两个只出现一次的数字。要求时间复杂度是O(n) ，空间复杂度是O(1) 。分析：这是一道很新颖的关于位运算的面试题。首先我们考虑这个问题的一个简单版本：一个数组里除了一个数字之外，其他的数字都出现了两次。请写程序找出这个只出现一次的数字。这个题目的突破口在哪里？题目为什么要强调有一个数字出现一次，其

2012-09-02 23:25:11 1061

转载动态规划——数组中最长递减子序列

求一个数组的最长递减子序列比如{9,4,3,2,5,4,3,2}的最长递减子序列为{9,5,4,3,2}分析：典型的动态规划题目，对每一个数计算由它开始的最大递减子序列的个数，并存放到一张映射表中。例如对数组a[n]有……然后利用求得的映射表及最大子序列个数获取原数组中的元素。对于{9,4,3,2,5,4,3,2}我们求得最大子序列个数为nMaxLe

2012-09-02 23:22:57 1503

转载在从1到n的正数中1出现的次数

题目：输入一个整数n，求从1到n这n个整数的十进制表示中1出现的次数。例如输入12，从1到12这些整数中包含1 的数字有1，10，11和12，1一共出现了5次。分析：这是一道广为流传的google面试题。简单的方法就是按照给位进行分析在个位出现1的个数=n/10+(个位=0,0；个位>1,1;个位=1，低0位+1)；十位位出现1的个数=n/100*10+(十位=0,0；十位

2012-08-31 12:12:41 1885

转载堆排序

堆排序堆排序是利用堆的性质进行的一种选择排序。下面先讨论一下堆。1.堆堆实际上是一棵完全二叉树，其任何一非叶节点满足性质： Key[i]=Key[2i+1]&&key>=key[2i+2] 即任何一非叶节点的关键字不大于或者不小于其左右孩子节点的关键字。堆分为大顶堆和小顶堆，满足Key[i]>=Key[2i+1]&&key>

2012-08-18 17:07:19 673

转载 LevelDB原理探究与代码分析

1. 概述Level DB（http://code.google.com/p/leveldb/）是google开源的Key/Value存储系统，它的committer阵容相当强大，基本上是bigtable的原班人马，包括像jeff dean这样的大牛，它的代码合设计非常具有借鉴意义，是一种典型的LSM Tree的KV引擎的实现，从它的数据结构来看，基本就是sstable的开源实现，而且针对各种

2012-07-05 14:31:59 14425 1

转载 memcached源码分析之hashtable

memcached中hashtable部分的源码主要分布在assoc.h/c、hash.h/c中，总得来说代码比较简单，这里就稍微介绍一下。 hashtable通常包括哈希函数和解决冲突的方法两个最主要的因素，memcached使用的哈希函数为Bob Jenkins在1996年发明的，定义位于hash.h中，实现在hash.c中，作者与2006年时提出另一个新的hash算法，其具

2012-07-05 11:28:30 759

转载 Memcached源码分析之内存管理

使用命令 set(key, value) 向 memcached 插入一条数据, memcached 内部是如何组织数据呢一把数据组装成 itemmemcached 接受到客户端的数据后, 把数据组装成 item, item 的格式如下: 图1 struct item 的结构源码中这样定义 struct item: C代码

2012-07-05 11:18:15 688

转载 memcached源码分析之线程模型

memcahced启动时线程处理的流程memcached的多线程主要是通过实例化多个libevent实现的,分别是一个主线程和n个workers线程无论是主线程还是workers线程全部通过libevent管理网络事件，实际上每个线程都是一个单独的libevent实例主线程负责监听客户端的建立连接请求，以及accept 连接workers线程负责处理已经建立好的连接的读

2012-07-05 11:03:43 615

转载海量数据面试题整理

1、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M。

2012-06-20 09:09:55 604

转载云存储的故事——元数据归来

元数据归来莫华枫云存储服务是云计算的重要组成部分。技术上，云存储属于大型分布式在线存储范畴。云存储是一大类特殊的共享存储。作为提供存储资源的服务，云存储需要保证用户存放的数据可靠，不丢失。同时，云存储必须确保实时在线，任何宕机都会给用户造成损失。因而，云存储的基本要求是高可靠和高可用。此外，云存储是海量数据的存储，规模巨大。而且，出于成本和现金流量的考虑，云存储的集群规模必须随着用

2012-06-20 08:58:34 491

houzengjiang的专栏