database technology
薄荷微光少年梦
这个作者很懒,什么都没留下…
展开
-
MongoDb Architecture(index)-------MongoDb的体系结构(索引)
与RDBMS(关系型数据库管理系统)的主要不同之处mangoDB与RDBMS的主要不同有如下几处:1.不像RDBMS记录那样是整齐的(数据类型的数目是固定一直的)。MongoDb的基本组成单元是“文件”,该文件是嵌套的并且可以包含多值字段(数组,散列)。2.不像RDBMS 那样所有的记录都存储在必须与表模式相一致的表内。任何结构的MangoDB文件都可以存储在同一个集合内。3.在查翻译 2012-06-05 15:23:43 · 1641 阅读 · 0 评论 -
数据库解析
1.知识点:not in/not exists+null准备:关于where条件:X AND Y: 只要X或者Y有一个是FALSE或者null的话,X AND Y返回FALSE。关于null:一个NULL值意味着未知,因此,对一个NULL值的任何比较或操作也都是无效的,而任何返回NULL的测试也都被忽视了。所以:select 'true' from dual转载 2013-08-12 18:57:05 · 1249 阅读 · 0 评论 -
十道海量数据处理面试题与十个方法大总结
第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多转载 2013-08-12 14:54:41 · 809 阅读 · 0 评论 -
Top K算法详细解析---百度面试
分享Top K算法详细解析---百度面试 作者: 徐薪凯作者:码农问题描述:这是在网上找到的一道百度的面试题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。假设目前有一千万个记录,这些查询串的重复度比较 高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也转载 2013-08-12 12:06:10 · 971 阅读 · 0 评论 -
字符串哈希函数
基本概念所谓完美哈希函数,就是指没有冲突的哈希函数,即对任意的 key1 != key2 有h(key1) != h(key2)。设定义域为X,值域为Y, n=|X|,m=|Y|,那么肯定有m>=n,如果对于不同的key1,key2属于X,有h(key1)!=h(key2),那么称h为完美哈希函数,当m=n时,h称为最小完美哈希函数(这个时候就是一一映射了)。在处理大规模字符串数据时,转载 2013-08-20 09:55:22 · 844 阅读 · 0 评论 -
B树、B-树、B+树、B*树
B树 即二叉搜索树: 1.所有非叶子结点至多拥有两个儿子(Left和Right); 2.所有结点存储一个关键字; 3.非叶子结点的左指针指向小于其关键字的子树,右指针指向大于其关键字的子树; 如: B树的搜索,从根结点开始,如果查询的关键字与结点的关键字相等,那么就命中;否则,转载 2013-03-12 09:56:29 · 1232 阅读 · 0 评论 -
动态查找树之平衡二叉树(Balanced Binary Tree,AVL树)
一、平衡二叉树的概念 平衡二叉树(Balanced binary tree)是由阿德尔森-维尔斯和兰迪斯(Adelson-Velskii and Landis)于1962年首先提出的,所以又称为AVL树。定义:平衡二叉树或为空树,或为如下性质的二叉排序树: (1)左右子树深度之差的绝对值不超过1; (2)左右子树仍然为平衡二叉树. 平衡因子BF=左子转载 2013-03-12 10:49:07 · 2139 阅读 · 0 评论 -
B-树的插入、查找、删除 及 可执行的C语言代码
前面讨论的查找都是内查询算法,被查询的数据都在内存。当查询的数据放在外存,用平衡二叉树作磁盘文件的索引组织时,若以结点为内外存交换的单位,则找到需要的关键字之前,平均要进行lgn次磁盘读操作,而磁盘、光盘的读写时间要比随机存取的内存代价大得多。其二,外存的存取是以“页”为单位的,一页的大小通常是1024字节或2048字节。 针对上述特点,1972年R.Bayer和E.M.Cright提出了一种原创 2013-03-12 10:45:16 · 3596 阅读 · 2 评论 -
动态hash办法(数据库索引技巧)
本文将介绍三种动态hash办法。 散列是一个很是有效的、很是根蒂根基的数据布局,在数据的查找方面尤其首要,应用的很是广泛。然而,任何事物都有两面性,散列也存在毛病,即数据的局部集中性会使散列的机能急剧降落,且越集中,机能越低。 数据集中,即搜刮键在经由过程hash函数运算后,获得同一个成果,指向同一个桶,这时便产生了数据冲突。 凡是解决数据冲突转载 2012-12-26 20:52:11 · 3513 阅读 · 3 评论 -
什么是SQL注入式攻击 如何防范
一、什么是SQL注入式攻击? 所谓SQL注入式攻击,就是攻击者把SQL命令插入到Web表单的输入域或页面请求的查询字符串,欺骗服务器执行恶意的SQL命令。在某些表单中,用户输入的内容直接用来构造(或者影响)动态SQL命令,或作为存储过程的输入参数,这类表单特别容易受到SQL注入式攻击。常见的SQL注入式攻击过程类如:⑴ 某个ASP.NET Web应用有一个登录页面,这个登录页面控制着用原创 2012-11-10 21:18:44 · 3397 阅读 · 0 评论 -
一道SQL:至少选修了学生002选修的全部课程的学生编号
INSERT test_c SELECT '001', '001'UNION ALL SELECT '001', '002'UNION ALL SELECT '001', '003'UNION ALL SELECT '002', '001'UNION ALL SELECT '002', '002' UNION ALL SELECT '003', '003'UNION ALL原创 2014-08-22 13:23:40 · 7139 阅读 · 0 评论