
科学理论
文章平均质量分 63
maray
Snowflake 高级研发工程师,前蚂蚁集团 OceanBase 内核研发高级专家,产品负责人,本科毕业于华中科技大学,研究生毕业于中科院计算所。主要兴趣领域:互联网应用,大规模数据处理。
展开
-
局部和整体的关系
这是一个非常本质的问题,其实你已经接近数学和物理中“几何本质”的核心了。如果你愿意,我可以给你举几个现实中的例子(比如地球地图拼贴、天气预测、物理场)来加深这个理念。👉 比如我们站在地球上,只能看到脚下那一小块平面(局部),但整个地球是球体(整体)。🧩「如果我们知道每个局部是怎样的,它们又是如何连接的,那整个空间会是什么样?• 局部都像欧几里得空间(我们熟悉的直角坐标系、平面等)🧠 例子 3:人脑的理解方式(局部推理构建整体认知)• 构建出完整的空间认知(比如你能“想象”你的家)原创 2025-04-29 22:26:32 · 180 阅读 · 0 评论 -
【速记】高斯分布(normal distribution)实现方法
本文调研了 normal distribution。那么如何生成符合 normal distribution 的随机序列呢?原创 2023-01-30 15:59:53 · 444 阅读 · 0 评论 -
《为什么要导师?》 之《选题》
<br />《为什么要导师?》 之《选题》<br /> <br />文/raywill<br /> <br />在进入硕士生阶段之前,大部分学生都没有真正的科研经历,对所谓科研目标、科研方法、科研态度等一无所知,经过一年级的工程阶段之后逐步面临毕业选题问题,但是,到目前为止,他们还没有真正系统地了解到什么才是科研。俗话说,师傅引进门,修行在各人。此时的学生,还没有被师傅引进门呢!在某科研院所,那些被选题困扰的同学一般面临的情形可能有这几种:导师也不知道选择什么题目,让学生自己找导师对问题的认识并不深原创 2011-03-08 13:36:00 · 1819 阅读 · 0 评论 -
说法
<br />写了一个RandomAccess测试工具,用来模拟随机访存。其特点在于可以分区访问,所谓分区指的是将其访问的内存分为大页面支持区和小页面支持区,应用随机访问这两个区。利用该benchmark可以制造出大小页面并存于TLB并相互竞争的局面。 <br /> <br />不过,这。。。太生涩了!读者会觉得这个毫无意义。如果在文章中这样给人讲述,一来难以理解,二来觉得是生造之物。怎么办?<br /> <br /> <br />换个角度描述!工具还是这个工具,一句代码都不改。换个说法而已:<br /> <原创 2011-04-12 13:18:00 · 932 阅读 · 0 评论 -
Percolator中的两阶段提交实现分析
Percolator是Google使用的一款基于Bigtable的、支持事务的增量索引系统,以客户端库的形式提供给用户。使用Percolator后,从页面爬取到新数据到这些数据被用户可见之间的平均延迟被缩小100倍!从技术的角度看主要有两方面改进:1. 能够增量地处理索引(Percolator之前Google使用MapReduce批量更新索引)2. 在并发处理的过程中能够保持一些"不变性(原创 2011-11-16 23:40:32 · 4125 阅读 · 0 评论 -
Excel 2007 中的双坐标系
【双坐标系】所谓双坐标系指的是,同一个图中有一个X轴,两个Y轴。两个Y轴表示的数值范围完全不同。例如下图,scale为X轴坐标,normal和huge为同一数值范围的Y坐标,而rate的表示范围与normal、huge完全不同,如果只用单坐标系表示这个表格的话,那么rate这条线将几乎跟y=0那条线重合。为了表现出rate的变化,所以需要双坐标系。左侧Y坐标表示normal和huge,右侧Y坐原创 2011-01-15 15:38:00 · 8526 阅读 · 0 评论 -
低通滤波器
实现了这辈子的第一个滤波器,而学习《信号与系统》这门课,已经是5年前的事情了。这次实现的是一个最最简单的“低通滤波器”,所谓低通滤波器,就是让低频通过,阻住高频。更简单的说,就是消除毛刺。。。滤波器算法如下: float lowpass = 0.0f; private float low_pass (float input) { lowpass = inpu原创 2012-07-09 20:01:48 · 8526 阅读 · 2 评论 -
可扩展的序列化协议
OceanBase的序列化协议是一种可扩展的协议,其基本单元为:TYPE_FLAG_FILED>一个完整的数据包是形如下面的内容:Content>Content>Content>.......Content>例如:RESERVE_PARAM_FIELD>BASIC_FIELD_PARAM>....接收端解析方式:bool more = tru原创 2013-01-09 11:52:15 · 1375 阅读 · 0 评论 -
如何写技术文章
下面是一个典范,把问题来龙去脉讲得很清楚,我很喜欢:著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。作者:阿猫链接:https://www.zhihu.com/question/20511233/answer/24260355来源:知乎没有啥复杂的东西,考虑清楚需求,就可以很自然的衍生出这些解决方案。一开始大家想要同一时间执行那么三五个程序,大家能一块跑一跑。特别是UI什转载 2016-01-14 19:25:55 · 1120 阅读 · 0 评论 -
语义化软件版本号管理
版本号规则版本格式:主版本号.次版本号.修订号,版本号递增规则如下: 主版本号:当你做了不兼容的 API 修改,次版本号:当你做了向下兼容的功能性新增,修订号:当你做了向下兼容的问题修正。转载 2016-05-24 09:49:01 · 724 阅读 · 0 评论 -
【概念学习】幂等性
OceanBase的insert支持幂等性控制。什么是幂等性?这来自代数概念:单目运算, x为某集合内的任意数, f为运算子如果满足f(x)=f(f(x)), 那么我们称f运算为具有幂等性(idempotent)双目运算,x为某集合内的任意数, f为运算子如果满足f(x,x)=x, f运算的前提是两个参数都同为x, 那么我们也称f运算为具有幂等性幂等性是系统原创 2013-01-05 10:10:19 · 3031 阅读 · 0 评论 -
高效学英语 - 统计英文书词频
有了一本书的词频,就能有针对性地将书中高频词汇先系统学习一遍,提高阅读效率啦。原创 2016-06-22 18:13:23 · 1564 阅读 · 0 评论 -
https://sci-hub.io/ 吊炸天,各种论文随便下
https://sci-hub.io/ 吊炸天,各种论文随便下。这个网站不支持直接搜索,不过不要紧,它提供了一个Chrome插件,安装好后,任何Google Scholar的搜索结果打开都会跳转到sci-hub的论文下载页面。屌啊屌啊屌啊~什么?Google Scholar打不开?打不开不要紧,去laod.cn下载一个host文件就成啦!原创 2016-03-14 14:21:12 · 31050 阅读 · 5 评论 -
数据库领域顶会
数据库领域顶会列表:SOSP: Symposium on Operating Systems PrinciplesICDE:35th IEEE International Conference on Data Engineering (ICDE 2019)OSDI:Operating Systems Design and ImplementationSIGMOD: Special Inte...原创 2019-03-11 16:42:40 · 1897 阅读 · 0 评论 -
STREAM Benchmark及其操作性能分析
STREAM Benchmark及其操作性能分析文/raywill STREAM 是业界广为流行的综合性内存带宽实际性能 测量 工具之一。随着处理器处理核心数量的增多,内存带宽对于提升整个系统性能越发重要,如果某个系统不能够足够迅速地将内存中的数据传输到处理器当中,若干处理核心就会处于等待数据的闲置状态,而这其中所产生的闲置时间不仅会降低系统的效率还会抵消多核心和高主频所带来的性能提升因素。 STREAM 具有良好的空间局部性,是对 TLB 友好、Cache友好的一款测试。STREAM支持原创 2011-03-08 10:50:00 · 30272 阅读 · 3 评论 -
指定某个cpu只运行指定进程的做法
进程与cpu绑定需要做四件事:一、把指定cpu从平衡算法剔除。二、把指定cpu上所有的中断请求搬到其他cpu。三、把指定cpu上的所有的进程搬到其他cpu。四、把指定进程到绑定到指定cpu。一、把指定cpu从cpu平衡算法剔除,机器启动后,用户进程自动不会在指定cpu上运行。做法如下:在/boot/grub/grub.conf文件里的root=LABEL=/ 后面添加 isolcpus=cpu号列表cpu号从0开始,多个cpu号之间用“,”分隔,例:isolcpus=1或isolcpus=4,5,6二、把指转载 2011-01-08 00:13:00 · 9696 阅读 · 0 评论 -
希腊字母表
α.Α.alpha β.Β.beta γ.Γ.gamma δ.Δ.deltaε.Ε.epsilon ζ.Ζ.zeta η.Η.eta θ.Θ.thetaι.Ι.iota κ.Κ.kappa λ.Λ.lambda μ.Μ.muν.Ν.nu ξ.Ξ.xi ο.Ο.转载 2008-11-01 19:15:00 · 784 阅读 · 0 评论 -
动态规划【转】
动态规划:动态规划所处理的问题是一个多阶段决策问题,一般由初始状态开始,通过对中间阶段决策的选择,达到结束状态。这些决策形成了一个决策序列,同时确定了完成整个过程的一条活动路线(通常是求最优的活动路线),一般要经过以下几个步骤: (1)划分阶段:按照问题的时间或空间特征,把问题分为若干个阶段。在划分阶段时,注意划分后的阶段一定要是有序的或者是可排序的,否则问题就无法求解。 (2)确定状转载 2008-11-18 17:28:00 · 1216 阅读 · 1 评论 -
胡伟武《处理器设计》(系统结构)2009年1月试题
1、写出64位定点数的补码、原码表示范围。2、理解计算题。计算L2Cache缺失时的损失周期数。题目大意: L1Cache命中时,读数据需要3个周期,当L1不命中时,需要去L2取数据,当L2命中的时候,若L2为直接映射,则增加3个Cycle的周期损失,若L2为二路组相连,则增加2个Cycle的周期损失,若L2为四路组相连,则增加1个原创 2009-01-15 23:12:00 · 3705 阅读 · 6 评论 -
MIPS系列笔记-临界区的支持
OS中很多操作是必须保证不被打断的,方法有很多,比如禁止中断,采用信号灯建立临界区等等。相对于粗鲁地禁止掉中断,利用临界区的方法更加灵活。 临界区的实现依赖于对某一参考数据的原子修改。 在x86中,使用了带前缀lock的test and set指令来实现对信号的原子修改。 在MIPS中用了一种新方法:配套使用ll(link load,链接加载)和sc(store condi原创 2009-02-17 15:28:00 · 1272 阅读 · 0 评论 -
Petri网简介
Petri nets basics A Petri net consists of places, transitions, and directed arcs. Arcs run between places and transitions, never between places or between transitions. The places from which an arc原创 2009-03-22 19:32:00 · 1795 阅读 · 0 评论 -
统计规律与数据编码
问题引入:有100万个字符串,他们长度各异,分布在[1,256]这个区间内。请设计一种方法来依次记录这些字符串的长度。要求:用尽可能少的空间来存储这些长度。例子:例如有下面四个串:hello (5)abc (3)abcd (4)good morning (12)可以用2字节来编码他们的长度:5、3编码到第一个字节,4、12编码到第二个字节,最原创 2009-04-21 21:33:00 · 1751 阅读 · 0 评论 -
A Proxy Architecture with Aggregated Data Compression Method for HTTP Server
A Proxy Architecture with Aggregated Data Compression Method for HTTP Server原创 2010-02-03 14:33:00 · 822 阅读 · 0 评论 -
一种垮域通知的协议解决思路-Notification Interface Protocol
Notification Interface提供一种协议,使得分布于各个网站的消息发送点能够方便地向一个集合点发送消息,通知有新消息到达,请前往查看详细内容。消息发送点:可以是位于blog、facebook、twitter等网站的一段程序,能够将网站更新消息发往集合点消息集合点:可以使QQ、MSN等在线工具,能够接收来自所有允许的消息发送点的消息 可行性分析:原创 2009-12-14 10:34:00 · 1157 阅读 · 0 评论 -
关于ManyCore的一些讨论
T-MCer 说:Bad News:虽然我们认为采用ncc NUMA来解决cache coherence的问题,但目前还很难找到有相关研究认为未来的multi core应该取消cache coherence的限制,do you have any info.?Ray 说:我昨天看Tilera(100core)的产品说明,他们也保证cache一致性:Tileras D原创 2010-05-07 11:37:00 · 2627 阅读 · 1 评论 -
《一种宋词自动生成的遗传算法及其机器实现》
《一种宋词自动生成的遗传算法及其机器实现》自厦门大学和浙江大学的三位学者开发的“宋词自动生成(的)遗传算法”,主要针对宋词这种特殊的汉语诗歌体裁,设计了其自动生成算法及其实现方法。3 个示例:keyword=菊 Ci Pai=清平乐 Style=风格婉约相逢缥缈,窗外又拂晓.长忆清弦弄浅笑,只恨人间花少.黄菊不待清尊,相思飘落无痕.风雨重阳又过,登高多少黄昏.转载 2010-05-13 17:32:00 · 2740 阅读 · 0 评论 -
【求解】下面这些标签能概括为哪些大类呢
【求解】下面这些标签能概括为哪些大类呢?有没有现成的分类法?或者您有山寨分类法吗? 诺基亚专家 背包客 驴子 咨询师 自由撰稿人 自由摄影师编织围脖心情宅女散文 摄影 基督徒 厨师 养生 食疗 美食 营养师法布雷加斯 twitter 西班牙语 茉莉花茶 摄影 新闻 读书 电原创 2010-05-18 10:50:00 · 1335 阅读 · 0 评论 -
一致性哈希的设计理念
首先看一个最简单的hash函数#define HASH_RANGE 5int simple_hash(int key){ return key%HASH_RANGE}通过调用simple_hash对5、8、9三个值进行哈希,结果如下:simple_hash(5) = 0simple_hash(8) = 3simple_hash(9) = 4在实际应用中,HASH_RANGE是代表着一定的实际意义的,比如机器的台数。下面就以机器台数为例。假设系统中增加了一台机器,这个时候HASH_RANGE = 6原创 2010-08-19 22:00:00 · 1578 阅读 · 1 评论 -
SPECcpu2006中执行单个测试程序的方法
关键字:SPEC CPU Int Float 测试程序 单独运行下面以bzip2为例说明1. 利用runspecrunspec --config=00.cfg --size=ref --tune=base --noreportable --iterations=3 bzip2note:00.cfg修改成你的配置文件名称,位于config目录下2. 完全动手,彻底消除spec神秘感先利用1中的方法运行bzip2,然后运行下面的命令:ps -ef | grep bzip可以看到真实的命令行和进程路径,提取出来,原创 2010-12-30 11:44:00 · 14584 阅读 · 8 评论 -
排队论
排队论(queueing theory), 或称随机服务系统理论, 是通过对服务对象到来及服务时间的统计研究,得出这些数量指标(等待时间、排队长度、忙期长短等)的统计规律,然后根据这些规律来改进服务系统的结构或重新组织被服务对象,使得服务系统既能满足服务对象的需要,又能使机构的费用最经济或某些指标最优。它是数学运筹学的分支学科。也是研究服务系统中排队现象随机规律的学科。广泛应用于计算机网络, 生产转载 2008-09-08 15:43:00 · 5279 阅读 · 0 评论