- 博客(11)
- 资源 (5)
- 收藏
- 关注
原创 Bloom Filter 原理及 Google BloomFilter
1. Bloom Filter简介布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中,但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成
2016-05-25 08:24:47 3755
原创 linux free命令使用及解析
1. 命令格式free [参数]2. 命令功能 free 命令显示系统使用和空闲的内存情况,包括物理内存、交互区内存(swap)和内核缓冲区内存。共享内存将被忽略3. 命令参数-b 以Byte为单位显示内存使用情况。 -k 以KB为单位显示内存使用情况。 -m 以MB为单位显示内存使用情况。-g 以GB为单位显示内存使用情况。-h 自动转换单位(最常用)-o 不显示
2016-05-25 08:20:09 2378
原创 scala中集合的交集、并集、差集
交集:scala> Set(1,2,3) & Set(2,4) // &方法等同于interset方法scala> Set(1,2,3) intersect Set(2,4)并集:scala> Set(1,2,3) ++ Set(2,4)scala> Set(1,2,3) | Set(2,4) // |方法等同于union方法scala> Set(1,2,3) union Set(2
2016-05-25 08:09:44 3778
原创 变量命名规范
1. 驼峰命名法1.1 小驼峰法 除第一个单词之外,其他单词首字母大写(常用于变量)int myStudentNumber1.2 大驼峰法(帕斯卡命名法) 每一个单词的首字母都采用大写字母(常用语类名,函数名,属性,命名空间)class StudentFamily2. 匈牙利命名法 变量名=属性+类型+对象描述,这样做的好处是使程序员第一眼看到变量时就对变量的类型和其它属性有直观
2016-05-25 08:07:14 17718 2
原创 Virtualenv 快速上手指南
1. virtualenv概述 virtualenv 通过创建独立Python开发环境的工具,来解决依赖、版本以及间接权限问题。比如一个项目依赖Django1.3 而当前全局开发环境为Django1.7,版本跨度过大, 导致不兼容使项目无法正在运行,使用virtualenv可以解决这些问题。 virtualenv 创建一个拥有自己安装目录的环境,这个环境不与其他虚拟环境共享库, 能够方
2016-05-25 08:04:00 3885
原创 Zipf,Power-laws,Pareto分布
对于在对数坐标系中出现一条直线而言,三种分布都是可能的:Zipf,Power-laws和 Pareto。这三种分布都是用于描述同一种现象:大量事件是稀少的,而一些小事件确是很普遍的。 例如:成绩非常优异的学生是少数,但是成绩中等的学生却很多。(1)Zipf分布描述事件出现平率yy与其由下优先级r(Rank)r(Rank)之间的关系,按照Zipf模型,事件出现的平率与其优先级rr成反比:
2016-05-25 08:01:41 3373
原创 影响Spark输出RDD分区的操作函数
1. 会影响到Spark输出RDD分区(partitioner)的操作cogroup, groupWith, join, leftOuterJoin, rightOuterJoin, groupByKey, reduceByKey, combineByKey, partitionBy, sort, mapValues(如果父RDD存在partitioner), flatMapValues(如果父RD
2016-05-01 10:05:13 1466
原创 fold/foldLeft/foldRight区别和联系
1. fold介绍从本质上说,fold函数将一种格式的输入数据转化成另外一种格式返回。fold, foldLeft和foldRight这三个函数除了有一点点不同外,做的事情差不多。我将在下文解释它们的共同点并解释它们的不同点。 我将从一个简单的例子开始,用fold计算一系列整型的和。val numbers = List(5, 4, 8, 6, 2)numbers.fold(0) { (z, i)
2016-05-01 09:59:30 5631
原创 Mysql支持的数据类型
1. 数值类型Mysql支持所有标准SQL中的数值类型,其中包括严格数据类型(INTEGER,SMALLINT,DECIMAL,NUMBERIC),以及近似数值数据类型(FLOAT,REAL,DOUBLE PRESISION),并在此基础上进行扩展。扩展后增加了TINYINT,MEDIUMINT,BIGINT这3种长度不同的整形,并增加了BIT类型,用来存放位数据。 整类型 字节 范围(
2016-05-01 09:54:48 8950
原创 RESTful API 设计最佳实践
1. 背景REST(英文:Representational State Transfer,表述性状态转移)描述了一个架构样式的网络系统,比如 web 应用程序。 目前互联网上充斥着大量的关于RESTful API(为方便,下文中“RESTful API ”简写为“API”)如何设计的文章,然而却没有一个”万能“的设计标准:如何鉴权?API 格式如何?你的API是否应该加入版本信息?当你开始写一个a
2016-05-01 09:30:02 9371
深度实践kvm pdf
2018-05-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人