- 博客(9)
- 资源 (9)
- 收藏
- 关注
转载 Hadoop/Hive简介
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hadoop是一个存储计算框架,主要由两部分组成: 1,存储(Hado
2012-12-31 10:17:23 606
转载 广告联盟识别作弊方法
广告联盟识别作弊方法总的来说,广告联盟对于识别作弊,主要有8点 1、点击比率上线设置:平均点击率从99年的5%下降到了1%以内,当然其中还需要广告面向对象与页面的访问者的交叉率,越高则表示该页面与广告的关联度越大,点击率越高。目前富媒体广告的点击率在2%至5%,普通图片点击在0.1%至1%,与图片的创意有关,可以设置当点击率超过一定的百分率提示可能作弊行为(兰色天空广告联盟设置在8%)。
2012-12-18 10:21:13 3884
转载 OLTP和OLAP
原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://76287.blog.51cto.com/66287/885475数据库设计的一个根基就是要弄清楚数据库的类型。 当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing在线事务处理,联机事务处理)、联
2012-12-05 23:41:46 509
转载 Mysql存储引擎
存储引擎工作原理MySQL中的数据用各种不同的技术存储在文件(或者内存)中。这些技术中的每一种技术都使用不同的存储机制、索引技巧、锁定水平并且最终提供广泛的不同的功能和能力。通过选择不同的技术,你能够获得额外的速度或者功能,从而改善你的应用的整体功能。存储引擎是什么? 例如,如果你在研究大量的临时数据,你也许需要使用内存存储引擎。内存存储引擎能够在内存中存
2012-12-05 22:59:11 467
原创 二叉树以及二叉搜索树的重建
1) 二叉树的重建。提供,前序和中序 Or 后序和中序。算法:前序或者后序作为主要数据来源,中序用来确定递归位置的分割。Node* buildTreePreIn(string pres, string ins){ Node* root = new Node; root.val = pres[0]; int index = ins.fi
2012-12-05 10:05:22 1018
转载 Python中list、tuple、dict区别
Dictionary 是 Python 的内置数据类型之一,它定义了键和值之间一对一的关系。每一个元素都是一个 key-value 对, 整个元素集合用大括号括起来您可以通过 key 来引用其值, 但是不能通过值获取 key在一个 dictionary 中不能有重复的 key。给一个存在的 key 赋值会覆盖原有的值。 在任何时候都可以加入新的key-value 对。这种语法同修改存在的值是
2012-12-04 10:12:13 2475
转载 Truncate, Delete, Drop的区别
TRUNCATE TABLE 在功能上与不带 WHERE 子句的 DELETE 语句相同:二者均删除表中的全部行。但 TRUNCATE TABLE 比 DELETE 速度快,且使用的系统和事务日志资源少。 DELETE 语句每次删除一行,并在事务日志中为所删除的每行记录一项。TRUNCATE TABLE 通过释放存储表数据所用的数据页来删除数据,并且只在事务日志中记录页的释放。 TRUNC
2012-12-03 18:39:02 636
转载 求中位数问题:最小堆,最大堆
具体思路:用一个最大堆存放比中位数小(或等于)的元素,用一个最小堆存放比中位数大(或等于)的元素。这里关键的方法是insert(),每当要插入一个元素时,根据判断条件将它插入最大堆或是最小堆,并更新最大堆和最小堆,使得最大堆和最小堆中元素的个数之差不超过1,这样中位数就是最大堆或最小堆的堆顶元素。当最大堆和最小堆中元素个数不同(个数相差为1)时,元素个数多的那个堆的堆顶元素即为中位数;如果两者
2012-12-03 12:05:59 1541
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人