big data
薄荷微光少年梦
这个作者很懒,什么都没留下…
展开
-
KAFKA分布式消息系统
Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线)。高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时转载 2014-08-13 17:25:11 · 606 阅读 · 0 评论 -
hadoop中汉字与英文字符混合的关键字做为combine的key的问题
最近,需要将汉字与字符的很合串作为combine的输出的key,这样做是希望,利用hadoop的归并来按照key进行分组,然后,在reduce阶段,拿到的都是一个一个组。但是,发现,这种,汉字混合的传做key,竟然,在reduce阶段中,接受的的key并不是唯一的,于是,考虑利用转码来实现。最终,问题解决了。package test.com.gjob.services;原创 2014-06-18 13:40:52 · 1129 阅读 · 0 评论 -
Hadoop InputFormat定制时必须知道的原理---如何划分split,split如何调度,如何读取
在执行一个Job的时候,Hadoop会将输入数据划分成N个Split,然后启动相应的N个Map程序来分别处理它们。数据如何划分?Split如何调度(如何决定处理Split的Map程序应该运行在哪台TaskTracker机器上)?划分后的数据又如何读取?这就是本文所要讨论的问题。先从一张经典的MapReduce工作流程图出发:1、运行mapred程序;2、本次转载 2014-05-21 15:55:31 · 2042 阅读 · 0 评论 -
haddop shuffle最详细的解释
最近一直在做mapreduce相关的产品,对转载 2014-05-21 11:27:38 · 1558 阅读 · 0 评论 -
Centos配置静态IP
First:使用VirtualBox装了很多虚拟机,默认采用的DHCP的方式,但是随着虚拟机越来越多以后,这种方式很不方便,所以需要将机器的IP都设置为静态IP需要添加的几项内容的解释:IPADDR IP地址NETMASK 子网掩码NETWORK 网关地址通常,如果我们想更改主机地址为静态地址或者更改主机名,需要修改的几个文件包括:/etc/sysconfig/netw转载 2014-04-28 10:32:49 · 695 阅读 · 0 评论 -
Storm 集群连接数据库方法
问题Linux下Java连接Mysql出现“ClassNotFoundException:com.mysql.jdbc.Driver”错误解决1. 把驱动文件放在这个文件夹里$JAVA_HOME//jre/lib/ext/mysql-connector-java-5.1.19-bin.jar2. 编辑/etc/profile文件参考资料转载 2014-02-10 16:12:11 · 2602 阅读 · 0 评论 -
Strom:pluggable scheduler :如何检测component是否已经分配到了指定的主机上
在做storm项目的时候,发现之前的那种判断是否执行自定义分配策略的条件太粗陋。以下是较严格的解决方案:不懂得可以给我留言//从实体的名字获取实体的线程集 private ArrayList getExecutorByName( TopologyDetails topology, String ExecutorNames) { ArrayList re = new ArrayL原创 2014-01-21 17:38:36 · 1508 阅读 · 0 评论 -
字符串压缩的一些算法 .
应用中,经常需要将字符串压缩成一个整数,即字符串散列。比如下面这些问题:(摘自JULY的博客 http://blog.csdn.net/v_july_v/ )(1)搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。请找出最热门的10个检索串。(2)有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1转载 2013-11-14 13:35:32 · 1911 阅读 · 0 评论 -
8种经典hash算法c#实现----适用于bloom filter 的K个散列函数
using System;using System.Collections.Generic;using System.Linq;using System.Text;namespace WindowsFormsApplication1{ static class HashCode { // BKDR Hash Function publ转载 2013-09-02 16:49:49 · 4153 阅读 · 1 评论 -
深入理解Bloom Filter
Bloom Filter是1970年由Bloom提出的,最初广泛用于拼写检查和数据库系统中。近年来,随着计算机和互联网技术的发展,数据集的不断扩张使得 Bloom filter获得了新生,各种新的应用和变种不断涌现。Bloom filter是一个空间效率很高的数据结构,它由一个位数组和一组hash映射函数组成。Bloom filter可以用于检索一个元素是否在一个集合中,它的优点是空间效率和查询时转载 2013-09-02 14:30:53 · 776 阅读 · 0 评论 -
hashing 与 bloom filter
关于hashingThe most important techniques behind Yahoo! are: hashing, hashing and hashing!——前雅虎首席科学家Udi Manber 计算机科学中的一类基本问题是如何在内存中找到一段指定的信息(a “key”),这类问题常常被称为字典问题(dictionary problem)。对转载 2013-08-30 10:17:18 · 953 阅读 · 0 评论 -
Bloom Filter概念和原理
Bloom Filter概念和原理焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter转载 2013-08-30 11:21:25 · 711 阅读 · 0 评论 -
日志字段提取优化方案
前提:日志文件中的字段由分隔符隔开。比如有100个字段,希望可以快速提取其中50个字段。优化fagnanrux原创 2014-09-11 15:07:10 · 1324 阅读 · 0 评论