- 博客(50)
- 资源 (4)
- 收藏
- 关注
原创 MVCC的一种实现方案
源信息来源:http://my.oschina.net/juliashine/blog/111624简单描述:一个data-server,通过mvcc来实现事务的一致性,已支持更高的吞吐和更低的lantency。每个Transaction(简称Trx)分配一个版本XID。XID是全局维护的递增ID。每个Data Item(相当于DB table的一行),有两个标记分别是XM
2013-07-05 14:23:09 786
转载 Mysql Innodb的undo redo操作过程
From:http://www.linuxidc.com/Linux/2011-09/42266.htmMysql到底是怎么实现MVCC的?这个问题无数人都在问,但google中并无答案,本文尝试从Mysql源码中寻找答案。在Mysql中MVCC是在Innodb存储引擎中得到支持的,Innodb为每行记录都实现了三个隐藏字段:6字节的事务ID(DB_TRX_ID )7字
2013-07-04 18:43:09 1185
转载 InnoDB的Redo Undo Log
原文链接:http://www.mysqlops.com/2012/04/06/innodb-log1.html本文是介绍MySQL数据库InnoDB存储引擎重做日志漫游 – Undo Log Undo Log 是为了实现事务的原子性,在MySQL数据库InnoDB存储引擎中,还用Undo Log来实现多版本并发控制(简称:MVCC)。 - 事务的原子性(Atomi
2013-07-04 18:19:55 501
转载 Redis's Transactions
Redis的事务处理方案。其中对于为什么redis不支持rool back的解释挺不错。From: http://redis.io/topics/transactions TransactionsMULTI, EXEC, DISCARD and WATCH are the foundation of transactions in Redis. They
2013-07-03 11:21:46 355
转载 多线程程序中操作的原子性
多线程程序中操作的原子性From:http://www.parallellabs.com/2010/04/15/atomic-operation-in-multithreaded-application/0. 背景原子操作就是不可再分的操作。在多线程程序中原子操作是一个非常重要的概念,它常常用来实现一些同步机制,同时也是一些常见的多线程Bug的源头。本文主要讨论了三
2013-07-01 15:04:04 296
转载 Linux I/O调度
【转载】Linux I/O调度来源:http://www.cnblogs.com/sopc-mc/archive/2011/10/09/2204858.html一) I/O调度程序的总结 1) 当向设备写入数据块或是从设备读出数据块时,请求都被安置在一个队列中等待完成. 2) 每个块设备都有它自己的队列. 3) I/O调度程序负责维护这些队列的顺序,以
2013-07-01 11:41:08 257
转载 CAP解释与一致性类别
From: http://www.blogjava.net/hello-yun/archive/2012/04/27/376744.html--在足球比赛里,一个球员在一场比赛中进三个球,称之为帽子戏法(Hat-trick)。在分布式数据系统中,也有一个帽子原理(CAP Theorem),不过此帽子非彼帽子。CAP原理中,有三个要素:一致性(Consistency) 可用性
2013-06-28 18:33:02 296
原创 【论文阅读】《Chain Replication for Supporting High Throughput and Availability》
--论文链接:http://www.cs.cornell.edu/fbs/publications/chainreplicosdi.pdf--摘要:针对分布式对象存储系统,满足副本的强一致性,同时支持高吞吐高可用的设计方案。简称链式复制。文章提出了链式复制的方案,并给出了查询、更新操作的流程,节点故障恢复方案。并和primary backups的方案进行了对比。认为链式复制的方案在
2013-06-27 14:55:13 1169
转载 探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类
探索推荐引擎内部的秘密,第 3 部分: 深入推荐引擎相关算法 - 聚类 <br /> 赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM<br />简介: 智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。聚类 (Clustering) 是一个数据挖掘的经典问题,它的目的是将数据分为多个簇
2011-05-24 20:50:00 605
转载 探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探
探索推荐引擎内部的秘密,第 1 部分: 推荐引擎初探 <br /> 赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM<br />简介: 随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求
2011-05-24 20:30:00 531 2
转载 探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 - 协同过滤 赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM简介: 本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法。在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的
2011-05-24 20:28:00 353
转载 google开源了内部使用的CityHash算法
<br /> <br />Google 发布了 CityHash 系列字符串散列算法。今天发布的有两种算法:CityHash64 与 CityHash128。它们分别根据字串计算 64 和 128 位的散列值。这些算法不适用于加密,但适合用在散列表等处。<br />Google 一直在根据其数据中心常用的 CPU 对算法进行优化,结果发现对大多数个人计算机与笔记本同样有效益。尤其是在 64 位寄存器、指令集级的并行,以及快速非对其内存存取方面。<br
2011-04-14 15:53:00 663
转载 [zz]Bloom Filter概念和原理
<br />http://blog.csdn.net/jiaomeng/archive/2007/01/27/1495500.aspx<br /> Bloom Filter概念和原理<br />焦萌 2007年1月27日<br /> <br />Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(fal
2011-04-13 22:25:00 181
原创 sparse_hash_table sparse_hash_set sparse_hash_map dense_hash_table/set/map
<br />看到之前的一份打印稿。描述了一个hash的组织结构。<br />大概是,对数据分group,每个group最多48个item。每个group有一个bitmap来标记对应节点是否存在,实际数据顺序存储在一个vector中,对于dense则是存一个完整的数组。<br /> <br />没明白这种设计有哪些好处和应用场景。 性能不大高。<br />暂记,估摸以后有用得到的地方。
2011-04-13 17:41:00 841
转载 jaccard相似度计算公式
<br />简单介绍一下Jaccard系数:广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。广义Jaccard系数又称Tanimoto系数。(有另一种系数也称为Tanimoto系数)。该系数用EJ表示,由下式定义:<br />EJ(x,y)=(x*y)/(||x|*||x||+||y||*||y||-x*y)<br />其公式与余弦相似度的计算有点相似<br /> <br />http://hi.baidu.com/soulingm/blog/item/28ff4
2011-04-12 22:04:00 6004 1
转载 向量相关性
http://woodstudio.iteye.com/blog/141005 <br /><br /><br />Pearson相关系数 - Pearson's Correlation Coefficient<br /> <br /> <br />关键字: pearson's correlation coefficient Pearson相关系数用来衡量两个数据集合是否在一条线上面。其计算公式为:<br /><br /><br />一个具体的计算的例子:X Y<br />
2011-04-12 21:36:00 592
转载 [zz]创新工场笔试小记
<br />http://www.iteye.com/topic/769423<br /> <br />创新工场几道笔试题,欢迎大家讨论。1 基本情况<br />笔试题量很小,答题时间1个小时。<br /> <br />1道填空题,9道左右选择题,最后一道编程题。2 几个题目<br />第一题:<br /> <br /> C代码 int f(int x) { int c = 0; while(x!=0) { x = x & (x-1); c++;
2011-04-12 21:20:00 308
转载 [zz]simhash算法的原理
<br />出处: http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.htmlsimhash算法的原理<br />第一次听说google的simhash算法[1]时,我感到很神奇。传统的hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上相当于伪随机数产生算法。传统hash算法产生的两个签名,如果相等,说明原始内容在一定概率下是相等的;如果不相等,除了说明原始内容不相等外,不再提供任何信息,因为即使原始内容只相差一个字
2011-03-29 16:46:00 312
转载 二项分布的概念与特征
http://www.foodmate.net/lesson/41/ <br />第一节 二项分布的概念与特征 <br />一、二项分布的概念<br />在医学领域中,有一些随机事件是只具有两种互斥结果的离散型随机事件,称为二项分类变量(dichotomous variable),如对病人治疗结果的有效与无效,某种化验结果的阳性与阴性,接触某传染源的感染与未感染等。二项分布(binomial distribution)就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布。<
2011-03-25 14:17:00 3013 1
转载 linux find/xargs命令
http://www.linuxsir.org/main/?q=node/137Linux文件查找命令find,xargs详述<br />总结:zhy2111314<br />来自:LinuxSir.Org<br />整理:北南南北<br />摘要: 本文是find 命令的详细说明,可贵的是针对参数举了很多的实例,大量的例证,让初学者更为容易理解;本文是zhyfly兄贴在论坛中;我对本文进行了再次整理,为方便大家阅读;<br />目录<br />版权声明<br />前言:关于find
2011-03-25 14:16:00 319
转载 linux文件查找命令inf,xargs详述
http://www.linuxsir.org/main/?q=node/137Linux文件查找命令find,xargs详述<br />总结:zhy2111314<br />来自:LinuxSir.Org<br />整理:北南南北<br />摘要: 本文是find 命令的详细说明,可贵的是针对参数举了很多的实例,大量的例证,让初学者更为容易理解;本文是zhyfly兄贴在论坛中;我对本文进行了再次整理,为方便大家阅读;<br />目录<br />版权声明<br />前言:关于find命令<br /><br
2011-03-21 15:01:00 497
原创 vector的实现
#include #include template class Vec{public: typedef T* iterator; typedef const T* const_iterator; typedef size_t size_type; typedef T value_type; typedef T& reference; typedef const T& const_refer
2009-11-04 11:40:00 205
原创 poj1047 大数乘法
Round and Round We GoTime Limit: 1000MS Memory Limit: 10000KTotal Submissions: 6796 Accepted: 3045DescriptionA cyclic number is an integer n digits in length whi
2009-11-03 13:52:00 602
转载 【转载】转自一个讨论组,容易犯的错误,留下警示自己
今天搭建程序测试环境的时候,需要用到我们自己开发的系统中的命令来完成一个功能,自己不确定是否存在这样的命令,手上的manual里也没有给出介绍。于是跑过去问同事,对我来说,问的目标其实很简单也很明确"*确认是否存在我需要的命令*"。先是问了第一个同事*A*,同事*A*惊讶于我问的问题的简单,立刻回答我,用那个*XXX*命令就可以搞定啦,这个时候,我的心理似乎发生了一些微妙的变化
2009-10-24 18:13:00 224
原创 后缀数组
在字符串处理当中,后缀树和后缀数组都是非常有力的工具,其中后缀树大家了解得比较多,关于后缀数组则很少见于国内的资料。其实后缀数组是后缀树的一个非常精巧的替代品,它比后缀树容易编程实现,能够实现后缀树的很多功能而时间复杂度也不太逊色,并且,它比后缀树所占用的空间小很多。可以说,在信息学竞赛中后缀数组比后缀树要更为实用。因此在本文中笔者想介绍一下后缀数组的基本概念、构造方法,以及配合后缀数组的最长公共
2009-10-23 22:53:00 267
转载 J.K.罗琳给哈佛麻瓜毕业生的寄语
http://v.youku.com/v_playlist/f3841191o1p1.html 建议不看以下文字,先听,然后不会的再看英文原文~~ 中文的就留给偷懒的人吧~~嘻嘻~ ——————咩,我是分割线~—————— President Faust, members of the Harvard Corporation and the Boardof Overseers,
2009-10-22 18:42:00 445
转载 浪潮之巅
浪潮之巅(On Top of Tides) 作者: 吴军 近一百多年来,总有一些公司很幸运地、有意识或者无意识地站在技术革命的浪尖之上。一旦处在了那个位置,即使不做任何事,也可以随着波浪顺顺当当地向前漂个十年甚至更长的时间。在这十几年间,它们代表着科技的浪潮,直到下一波浪潮的来临。从一百年前算起,AT&T 公司、IBM 公司、
2009-10-21 14:39:00 628
原创 不错的应该关注的blog和站点
刘未鹏|C++的罗浮宫 4G Space ftp搜索的实现 我爱自然语言处理 google黑板报-浪潮之巅 对牛弹琴 google黑板报-数学之美
2009-10-21 14:19:00 185
转载 名人名言
1. Although the world is full of suffering,it is full also of the overcoming of it.----Hellen Keller,American writer虽然世界多苦难,但是苦难总是能战胜的。----美国作家 海伦.凯勒2. Everything can be taken from a man but one thing
2009-10-20 13:41:00 181
转载 数学模型的重要性
-摘选自 数学之美 谈谈数学模型的重要性1. 一个正确的数学模型应当在形式上是简单的。(托勒密的模型显然太复杂。) 2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。(日心说开始并没有地心说准确。) 3. 大量准确的数据对研发很重要。 4. 正确的模型也可能受噪音干扰,而显得不准确;这时我们不应该用一种凑合的修正方法
2009-10-20 10:47:00 374
原创 警言
金子到哪里都发光 思维要灵活 做人要低调 不要为自己没把工作做好找任何理由 不要看不起任何人 做好工作之前先做好人不要指责别人要学会有礼貌第一份工作的重要程度远超过你的想象 -- 过去的经历会一步步的影响到你的未来决策和工作方向,请把握住每一次机会。跟对老板太重要了!摆好心态,不要怕老板变态、苛刻、压榨、要求不合理,只要能学到东西,跟着一个变态的老板远比找一个舒适安逸的工作好得多
2009-10-18 20:58:00 188
转载 百度运维
1.假设Apache产生的日志文件名为access_log,在apache正在运行时,执行命令mv access_log access_log.bak,执行完后,请问新的apache的日志会打印到哪里,为什么? 1、新的日志会打印在access_log.bak中,因为apache启动时会找到access_log文件,随时准备向文件中加入日志信息, 虽然此时文件被改名,但是由于服务正
2009-09-25 13:19:00 693
转载 听的艺术
美国知名主持人林克莱特一天访问一名小朋友,问他:“你长大后想要当什么呀?” 小朋友天真地回答:“嗯......我要当飞机的驾驶员!”林克莱特接着问:“如果有一天,你的飞机飞到太平洋上空,所有引擎都熄火了,你会怎么办?”小朋友想了想:“我会先告诉坐在飞机上的人绑好安全带,然后我挂上我的降落伞跳出去。”当在现场的观众笑得东倒西歪时,林克莱特继续注视着这个孩子
2009-09-24 18:29:00 177
转载 [ZT]一个总经理的11个经典面试问题[ZT]
[ZT]一个总经理的11个经典面试问题[ZT] 最近,自己面试了上百个大学生,觉得他们在面试的心态和技能方面急需提高,以便顺利通过这一关,进入人生的第一个职业。面试过程中,我会向应聘者发问,而应聘者的回答将成为我考虑是否接受他的重要依据。对应聘者而言,了解这些问题背后的目的至关重要。 问题一:“请你自我介绍一下” 这个问题的面试方法是:应聘者站起来用五分钟的时间面对大家进
2009-09-24 13:21:00 223
转载 C#中异步和多线程
2009-08-21 12:58C#中异步和多线程的区别是什么呢?异步和多线程两者都可以达到避免调用线程阻塞的目的,从而提高软件的可响应性。甚至有些时候我们就认为异步和多线程是等同的概念。但是,异步和多线程还是有一些区别的。而这些区别造成了使用异步和多线程的时机的区别。异步和多线程的区别之异步操作的本质所有的程序最终都会由计算机硬件来执行,所以为了更
2009-09-17 18:19:00 807
转载 分页查询
分页浏览功能是常见的Web应用功能,对于MySQL数据库来说可以很轻松的使用limit语句实现分页,而对于SQLServer数据库来说,常见的方法是使用数据集本身的游标实现分页,这种方法对于少量数据来说没什么问题,但是对于稍大一点的数据量,例如几十万条数据,则查询速度会降低很多,这里我介绍一种常用的技巧,只要简单的重新构造一下查询SQL语句,就能大幅提高查询性能的方法。 在分页算法中
2009-09-17 18:14:00 260
转载 小规模低性能低流量网站设计原则
小规模低性能低流量网站设计原则 作者: Fenng | 可以转载, 转载时务必以超链接形式标明文章原始出处和作者信息及版权声明网址: http://www.dbanotes.net/arch/small_site_arch.html 到处都是什么大规模啊,高流量啊,高性能之类的网站架构设计,这类文章一是满足人们好奇心,但
2009-09-17 18:12:00 143
转载 Linux 文件系统剖析 按照分层结构讨论 Linux 文件系统
M. Tim Jones, 顾问工程师, Emulex Corp.2007 年 12 月 03 日在文件系统方面,Linux® 可以算得上操作系统中的 “瑞士军刀”。Linux支持许多种文件系统,从日志型文件系统到集群文件系统和加密文件系统。对于使用标准的和比较奇特的文件系
2009-09-17 16:52:00 343
转载 新一代 Linux 文件系统 btrfs 简介
刘 明 (ovis_poly@sina.com), 软件工程师, 上海交通大学电子与通信工程系 2009 年 8 月 20 日Btrfs 被称为是下一代 Linux 文件系统。近年来 ext2/3遇到越来越多的扩展性问题,在期待 ext4 的同时,人们发现了 btrfs,据说它采用了很多先进的文件系统设计,不仅解决了 ext2/3的扩展性问题,还让人们看到了下一代文
2009-09-17 16:44:00 301 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人