2016年08月_小狼_百度

12月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载为什么一般hashtable的桶数会取一个素数

先看下面一段网上摘录的：设有一个哈希函数H( c ) = c % N;当N取一个合数时，最简单的例子是取2^n，比如说取2^3=8,这时候H( 11100(二进制） ) = H( 28 ) = 4H( 10100(二进制) ) = H( 20 ）= 4这时候c的二进制第4位（从右向左数）就”失效”了，也就是说，无论第c的4位取什么值，都会导致H( c

2016-08-24 19:26:59 968

转载位操作基础篇之位操作全面总结

Title: 位操作基础篇之位操作全面总结Author: MoreWindowsE-mail: morewindows@126.comKeyWord: C/C++ 位操作位操作技巧判断奇偶交换两数变换符号求绝对值位操作压缩空间筛素数位操作趣味应用位操作笔试面试位操作篇共分为基础篇和提高篇，基础篇主要对位操作进行全面总结，帮助大

2016-08-24 19:21:58 536

转载 protocol buffer使用中的问题This is supposed to be overridden by subclasses

测试protocol buffer格式数据输出工具类。用了protoc-2.4.1-win32生成的java类。然后测试项目中引入的包是 dependency> groupId>com.google.protobufgroupId> artifactId>protobuf-javaartifactId> version>2.5.0version> dependency

2016-08-22 17:47:52 1512

转载 Protocol Buffers学习小记－基于servlet的http RPC实现

Protocol Buffers没有提供RPC的具体实现。不过，你可以在 http://code.google.com/p/protobuf/wiki/ThirdPartyAddOns 找到一些第三方开发的RPC实现。本文尝试了http RPC的实现，运行在Tomcat的servlet中。需要注意的是，这只是个测试，实现是不完整的，并且代码很不好看，很不好复用。

2016-08-22 17:08:00 1055

转载大数据下的Distinct Count（二）：Bitmap篇

在前一篇中介绍了使用API做Distinct Count，但是精确计算的API都较慢，那有没有能更快的优化解决方案呢？1. Bitmap介绍《编程珠玑》上是这样介绍bitmap的：Bitmap是一个十分有用的数据结构。所谓的Bitmap就是用一个bit位来标记某个元素对应的Value，而Key即是该元素。由于采用了Bit为单位来存储数据，因此在内存占用方面，可以大大节省

2016-08-17 13:53:39 2353

转载大数据下的Distinct Count（一）：序

在数据库中，常常会有Distinct Count的操作，比如，查看每一选修课程的人数：select course, count(distinct sid)from stu_tablegroup by course;Hive在大数据场景下，报表很重要一项是UV（Unique Visitor）统计，即某时间段内用户人数。例如，查看一周内app的用户分布情况，Hive中写

2016-08-17 13:51:57 2495

转载 Hive的HQL语句及数据倾斜解决方案

文章出处：http://blog.csdn.net/sdksdk0/article/details/51675005作者：朱培 ID：sdksdk0Hive环境的搭建在这里也不重复说了，安装配置可以查看我的这篇文章：http://blog.csdn.net/sdksdk0/article/details/51512031。在这里主要是分享一下HQL语句实践及

2016-08-15 19:09:00 1401

转载 Apache Spark探秘：实现Map-side Join和Reduce-side Join

在大数据处理场景中，多表Join是非常常见的一类运算。为了便于求解，通常会将多表join问题转为多个两表连接问题。两表Join的实现算法非常多，一般我们会根据两表的数据特点选取不同的join算法，其中，最常用的两个算法是map-side join和reduce-side join。本文将介绍如何在apache spark中实现这两种算法。（1）Map-side Join

2016-08-15 18:38:24 1622

转载坐在马桶上看算法：快速排序

高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢？那就是“快速排序”啦！光听这个名字是不是就觉得很高端呢。假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数（不要被这个名词吓到了，就是一个用来参照的数，待会你就知道它用来做啥的了）。为了方便，就让第一个数6作为基准数吧。接下来，需要将这个序列

2016-08-15 18:13:28 428

转载 hive之窗口函数理解与实践

需要指定一个窗口的边界，语法是这样的：ROWS betweenCURRENT ROW | UNBOUNDED PRECEDING | [num] PRECEDING AND UNBOUNDED FOLLOWING | [num] FOLLOWING| CURRENT ROW或RANGE between [num] PRECEDING AND [num]FOLLO

2016-08-15 17:50:15 678

转载 HIVE 窗口及分析函数应用场景

窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明RANK() 返回数据项在分组中的排名，排名相等会在名次中留下空位DENSE_RAN

2016-08-15 17:47:09 1285

转载从头到尾彻底解析Hash表算法

作者：July、wuliming、pkuoliver　　说明：本文分为三部分内容，第一部分为一道百度面试题Top K算法的详解；第二部分为关于Hash表算法的详细阐述；第三部分为打造一个最快的Hash表算法。　　第一部分：Top K 算法详解　　问题描述（百度面试题）：　　搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255

2016-08-12 17:42:19 788

转载高压缩空间占用的 Hyper LogLog 算法

大数据计算：如何仅用1.5KB内存为十亿对象计数 - Hyper LogLog 算法 Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5KThis is a guest post by Matt Abrams (@abramsm),

2016-08-12 17:20:01 1703

转载 redis去重方案优化

tpn(taobao push notification)在使用redis计算消息未读数的过程中，遇到了一系列的问题，下面把这个过程整理了一下，也让大家了解这个纠结的过程，供大家以后使用redis或者做类似的功能时进行参考 redis在tpn里面主要是用于计算移动千牛(Android、IOS)上的消息未读数。tpn的未读消息数是基于bizId维度的，即同一个bizId(每条消息的业务i

2016-08-11 16:40:40 23676 2

转载 JAVA HashMap详细介绍和示例

第1部分 HashMap介绍HashMap简介HashMap 是一个散列表，它存储的内容是键值对(key-value)映射。HashMap 继承于AbstractMap，实现了Map、Cloneable、java.io.Serializable接口。HashMap 的实现不是同步的，这意味着它不是线程安全的。它的key、value都可以为null。此外，HashMap中的映射不是有

2016-08-05 18:54:04 646

转载 java中HashMap详解

HashMap 和 HashSet 是 Java Collection Framework 的两个重要成员，其中 HashMap 是 Map 接口的常用实现类，HashSet 是 Set 接口的常用实现类。虽然 HashMap 和 HashSet 实现的接口规范不同，但它们底层的 Hash 存储机制完全一样，甚至 HashSet 本身就采用 HashMap 来实现的。通过 HashMap

2016-08-05 18:51:57 329

转载从另一个角度看大数据量处理利器：布隆过滤器

思路：从简单的排序谈到BitMap算法，再谈到数据去重问题，谈到大数据量处理利器：布隆过滤器。情景1：对无重复的数据进行排序@给定数据（2，4，1，12，9，7，6）如何对它排序？方法1：基本的排序方法包括冒泡，快排等。方法2：使用BitMap算法方法1就不介绍了，方法2中所谓的BitMap是一个位数组，跟平时使用的数组的唯一差

2016-08-05 18:48:16 1349

转载深入研究Java类加载机制

类加载是Java程序运行的第一步，研究类的加载有助于了解JVM执行过程，并指导开发者采取更有效的措施配合程序执行。研究类加载机制的第二个目的是让程序能动态的控制类加载，比如热部署等，提高程序的灵活性和适应性。一、简单过程 Java程序运行的场所是内存，当在命令行下执行：java HelloWorld命令的时候，JVM会将HelloWorld.class加载到内存中，并

2016-08-05 17:28:51 381

转载 java.lang.instrument 学习（一）

转自：http://jiangbo.me/blog/2012/02/21/java-lang-instrument/Instrumentation介绍：java Instrumentation指的是可以用独立于应用程序之外的代理（agent）程序来监测和协助运行在JVM上的应用程序。这种监测和协助包括但不限于获取JVM运行时状态，替换和修改类定义等。 Java SE5中使用JVM

2016-08-05 17:25:45 352

转载五分钟理解一致性哈希算法(consistent hashing)

转载请说明出处：http://blog.csdn.net/cywosp/article/details/23397179 一致性哈希算法在1997年由麻省理工学院提出的一种分布式哈希（DHT）实现算法，设计目标是为了解决因特网中的热点(Hot spot)问题，初衷和CARP十分类似。一致性哈希修正了CARP使用的简单哈希算法带来的问题，使得分布式哈希（DHT）可以在P2P环境中真正

2016-08-03 18:59:36 419

转载如何用消息系统避免分布式事务？

前阵子从支付宝转账1万块钱到余额宝，这是日常生活的一件普通小事，但作为互联网研发人员的职业病，我就思考支付宝扣除1万之后，如果系统挂掉怎么办，这时余额宝账户并没有增加1万，数据就会出现不一致状况了。上述场景在各个类型的系统中都能找到相似影子，比如在电商系统中，当有用户下单后，除了在订单表插入一条记录外，对应商品表的这个商品数量必须减1吧，怎么保证？！在搜索广告系统中，当用户点击某广告后，除

2016-08-03 18:42:03 455

转载 RocketMQ与Kafka对比（18项差异）

转自：https://github.com/alibaba/RocketMQ/wiki/rmq_vs_kafka淘宝内部的交易系统使用了淘宝自主研发的Notify消息中间件，使用Mysql作为消息存储媒介，可完全水平扩容，为了进一步降低成本，我们认为存储部分可以进一步优化，2011年初，Linkin开源了Kafka这个优秀的消息中间件，淘宝中间件团队在对Kafka做过充分Review之后，

2016-08-03 17:58:48 1231

转载数据仓库的模型设计

数据仓库的模型设计A. 数据建模方法论数据仓库模型设计遵循“自顶向下、逐步求精”的设计原则。模型设计分为三个阶段：1，概念模型对业务的范围和使用，从高度上进行抽象概括，也就是划分主题域。一般划分为8个主题域：客户、服务、服务使用、账务、结算、资源、客服、营销为什么要划分主题域？划分主题域，是根据业务的应用和需要来划分的，是

2016-08-03 16:27:13 3488

转载什么是数据仓库主题

1．主题的概念主题（Subject）是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念，每一个主题基本对应一个宏观的分析领域。在逻辑意义上，它是对应企业中某一宏观分析领域所涉及的分析对象。例如“销售分析”就是一个分析领域，因此这个数据仓库应用的主题就是“销售分析”。面向主题的数据组织方式，就是在较高层次上对分析对象数据的一个完整并且一致的描述，能刻画各个分析

2016-08-03 16:25:29 8489

转载【mysql】关于命令load data local infile 配置

要支持命令load data local infile，应当在/etc/mysql/my.cnf中添加这样的设置:[plain] view plain copy[mysqld] #服务端配置 local-infle = 1 [mysql] #客户端配置 local-infile

2016-08-02 14:55:51 9507

转载分布式应用框架Akka快速入门

本文结合网上一些资料，对他们进行整理，摘选和翻译而成，对Akka进行简要的说明。引用资料在最后列出。1.什么是AkkaAkka 是一个用 Scala 编写的库，用于简化编写容错的、高可伸缩性的 Java 和 Scala 的 Actor 模型应用。官方网站（http://akka.io/）的介绍是：Akka is a toolkit and runtime for bu

2016-08-01 18:32:41 745

转载海量数据处理利器之布隆过滤器

看见了海量数据去重，找到停留时间最长的IP等问题，有博友提到了Bloom Filter，我就查了查，不过首先想到的是大叔，下面就先看看大叔的风采。一、布隆过滤器概念引入（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成，布隆过滤器可以用于检索一个

2016-08-01 18:29:56 568

转载基于Redis的BloomFilter实战

声明：本文写作皆因个人兴趣，仅供学习目的，限于本人水平有限，不当之处请指正，欢迎讨论。欢迎转载，转载请注明出处。本文地址： http://www.imsiren.com/archives/988 离线数据处理与实时数据处理有很大的不同，其中一个例子就是去重。在聚数据中，访问UV和购买UV都需要实时的去重。离线处理的时候，我们可以通过count(groupby)或者count(

2016-08-01 18:28:35 1997