2015年03月_不能飞的肥燕

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

原创一共81个，开源大数据处理工具汇总

一共81个，开源大数据处理工具汇总（上）一共81个，开源大数据处理工具汇总（下），包括日志收集系统/集群管理/RPC等

2015-03-31 16:45:06 678

转载减少使用Java应用服务器，迎接Docker容器

【编者的话】随着Docker的发展，越来越多的应用开发者开始使用Docker。James Strachan写了一篇有关Java开发者如何使用Docker进行轻量级快速开发的文章。他告诉我们，使用Docker和服务发现的机制，可以有效减轻Java运维人员的负担，进行项目的快速启动和持续迭代。多年来，Java生态系统一直在使用应用服务器。Java应用服务器（如Servlet Engine、J

2015-03-27 18:00:02 664

原创在Ubuntu 14.04安装和设置SSH服务

1.安装apt-get安装。1.1. 安装ssh-serversudo apt-get install openssh-server1.2. 安装ssh-clientsudo apt-get install openssh-client1.3.启动/etc/init.d/ssh start；1.4. 验证服务：ps -x|grep sshd

2015-03-24 18:16:28 698

转载大数据相关工具

Hadoop虽然很多人会把映射与规约工具广义化称为Hadoop，但从客观角度讲、其实只有一小部分核心代码算是真正的Hadoop。多个工作节点负责对保存在本地的数据进行功能执行，而基于Java的代码则对其加以同步。这些工作节点得到的结果随后经过汇总并整理为报告。第一个步骤被称为”映射（即map）”，而第二步骤则被称为”规约（reduce）”。Hadoop为本地数据存储与同步系统提供一

2015-03-19 11:06:57 659

转载大数据真的很牛B吗？不不不，10分钟让你读懂它

xiaoyu Ma：大数据的讨论，大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据。

2015-03-19 10:38:16 2086 2

原创管理模型之PACE

PACE: process owner, approver, contributor, executor。在团队里每个成员都分类成这四中角色，而四种角色里有两个角色是有且只有一个，那就是P和A。一个组织只能有流程管理的P来掌控流程，一个组织只能有一个真正拍板的A，一个组织可以有很多C出来提意见来左右A的判断，一个组织有无数的E在干活提供支持C的理论的证据。但为什么我们会不断遇到大家吵来

2015-03-19 10:04:11 5431

转载理解HTTP幂等性

理解HTTP幂等性基于HTTP协议的Web API是时下最为流行的一种分布式服务提供方式。无论是在大型互联网应用还是企业级架构中，我们都见到了越来越多的SOA或RESTful的Web API。为什么Web API如此流行呢？我认为很大程度上应归功于简单有效的HTTP协议。HTTP协议是一种分布式的面向资源的网络应用层协议，无论是服务器端提供Web服务，还是客户端消费Web服务都

2015-03-18 18:36:23 424

转载专访：原生广告这么玩，Avazu真的这么有信心吗？

［背景］石一当初承诺开发者，通过Avazu的原生广告可以同时实现变现和推广的时候，业界有些怀疑这个年轻的80后CEO说话的口气。原生广告（Native Ad）应该是2014年国内营销圈内最热的话题之一，然而它的定义相比它本身的出现晚了很多。在搜索为王的PC时代，付费搜索（Paid Search）类广告便垄断整个PC端；随着互联网带宽提升，在线视频的激增，给视频广告提供了良机；同时无

2015-03-18 16:23:12 1228

原创利用Kafka, Cloudera Search以及Hue实现实时日志分析系统

cloudera的官方blog中有偏文章，写的非常详细。系统架构图如下：文章的详细地址为： http://blog.cloudera.com/blog/2015/02/how-to-do-real-time-log-analytics-with-apache-kafka-cloudera-search-and-hue/

2015-03-17 14:21:10 2493

转载 Cloudera Impala官方文档中文翻译-1

http://blog.csdn.net/jiadebin890724/article/details/38822331

2015-03-17 11:18:33 2731

原创 elasticsearch-head-elasticsearch集群管理工具

elasticsearch-head是一个界面化的集群操作和管理工具，他是通过html5编写，可以对集群进行傻瓜式操作。安装有两种安装方式：1、通过elasticseach自带的plugin命令 plugin -install Aconex/elasticsearch-head可以看到-> Installing mobz/elasticsearch-head...T

2015-03-11 14:39:10 3545 1

转载 geohash算法原理及实现方式

1、geohash特点2、geohash原理3、geohash的php 、python、java、C#实现代码4、观点讨论 w微博:http://weibo.com/dxl0321geohash有以下几个特点：首先，geohash用一个字符串表示经度和纬度两个坐标。某些情况下无法在两列上同时应用索引（例如MySQL 4之前的版本，Google App Engine的数据层

2015-03-10 17:51:36 1050

转载论大公司的通病

文/Fenng　　兴之所至的写了一下我对 BAT 三家公司的看法，有位大佬留言说，不如写一下大公司的通病。这倒是提醒了我，很好的话题，任何大公司都有各种各样的独特的问题，也有些问题有共性。我列几点跟大家探讨。　　一. 过度管理　　绝大多数大型公司的管理者的管理工作都是过度的，这话不算夸张，有些管理者甚至把管理本身当成唯一的工作任务，更有甚至，只盯着上一级主管的喜好做事，糟糕

2015-03-10 15:49:08 732

原创 Elasticsearch基础之接口概述

Elasticsearch 提供了非常全面和强大的REST API，利用这个REST API你可以同你的集群交互。功能利用这些API，可以做到诸如： - 检查你的集群、节点和索引的健康状态、和各种统计信息 - 管理你的集群、节点、索引数据和元数据 - 对你的索引进行CRUD（创建、读取、更新和删除）和搜索

2015-03-10 14:49:40 1671

原创 Elasticsearch基础教程之安装

Elasticsearch安装

2015-03-10 11:07:10 4747

原创 Elasticsearch基础教程-基本概念

Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。接近实时（NRT） Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒）。集群（cluster）一个集群就是由一个或多个节点组织在一起，它们共同持有你整个的数据，并一起

2015-03-09 20:05:46 1017

转载 ElasticSearch的工作机制

ElasticSearch，和Solr一样，是底层基于Apache Lucene，且具备高可靠性的企业级搜索引擎。ElasticSearch中的一些概念其实和关系型数据库都有对应关系，比如数据库在ES中被称为索引，表在ES中被称作Type。具体对应关系见下表。ElasticSearch中的Replica是副本的意思，创建副本的好处有两个，1，可以分流部分查询请求,2

2015-03-09 19:40:26 741

原创 solr和elasticsearch比较

solr的分布式搜索有个比较纠结的问题是：不会自动负载均衡。不过solr4已经提供简单的自动负载均衡，不知道效果如何，有待生产环境考验。elasticsearch是一个比较成熟的分布式搜索引擎，配置也很简单。提供一个elasticsearch大神博客的链接：http://blog.csdn.net/laigood12345/article/category/1113868。

2015-03-09 19:35:53 3273

转载 hadoop集群监控工具ambari

Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeper、Sqoop和Hc

2015-03-06 16:30:19 2559

转载 Ganglia监控Hadoop及Hbase集群性能(安装配置)

1 Ganglia简介Ganglia 是 UC Berkeley 发起的一个开源监视项目，设计用于测量数以千计的节点。每台计算机都运行一个收集和发送度量数据（如处理器速度、内存使用量等）的名为 gmond 的守护进程。它将从操作系统和指定主机中收集。接收所有度量数据的主机可以显示这些数据并且可以将这些数据的精简表单传递到层次结构中。正因为有这种层次结构模式，才使得 Ganglia 可以实现

2015-03-06 15:54:10 1594

转载 HBase条件查询（多条件查询）

Author：Pirate LeomyBlog: http://blog.csdn.net/pirateleo/myEmail: codeevoship@gmail.com转载请注明出处，谢谢。文中可能涉及到的API：Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase:

2015-03-06 14:23:18 801

转载海量数据处理算法总结

1. Bloom Filter【Bloom Filter】Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就是Bloom Filter判断元素不再集合，那肯定不在。如果判断元素存在集合中，

2015-03-06 14:04:04 532

转载海量数据处理算法—Bloom Filter

1. Bloom-Filter算法简介 Bloom-Filter，即布隆过滤器，1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有

2015-03-06 14:03:04 512

转载 BloomFilter——大规模数据处理利器

Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例　　为了说明Bloom Filter存在的重要意义，举一个实例：　　假设要你写一个网络蜘蛛（web crawler）。由于网络间的链接错综复杂，蜘蛛在网络间爬行很可能会形成“环”。

2015-03-06 14:00:32 388

转载 zookeeper学习记录

背景前段时间看了S4流计算引擎，里面使用到了zookeeper进行集群管理，所以也就花了点时间研究了下zookeeper，不求看懂所有源码，但求了解其实现机制和原理，清楚其基本使用。这也是为后续hadoop,gridgain的分布式计算的产品。学习首先就是收集一些前人的一些学习资料和总结内容，方便自己快速入门。这里罗列了几篇不错的文章： h

2015-03-05 14:44:27 406

转载 zookeeper使用和原理探究（一）

zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件，它是开源的Hadoop项目中的一个子项目，并且根据google发表的论文来实现的，接下来我们首先来安装使用下这个软件，然后再来探索下其中比较重要一致性算法。 zookeeper安装和使用zookeeper的安装基本上可以按照 http://hadoop.apache.org/zookeeper/doc

2015-03-05 14:32:55 320

转载 Hadoop Hive与Hbase关系整合

用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询.hive也即做数据仓库1. 基于Hadoop+Hive架构对海量数据进行查询：http://blog.csdn.net/kunshan_shenbin/article/details/71053192. HBase 0.90

2015-03-05 11:54:50 439

转载广告定向之再营销

广告定向之再营销2014/08/08计算广告学再营销、定向、广告lorylin什么是再营销广告定向再营销是利用用户在互联网上的行为进行精准定向的广告策略。其中的行为可能包含浏览网页、搜索商品、查看感兴趣的商品信息、将有强烈购买意图的商品放入购物车等等，而“再”的意思则是指将用户感兴趣的商品信息以广告的形式再次展现在他面前。一个典型的再营销场景我们来看下面一个例子

2015-03-03 16:48:12 1050

转载 Peacock：大规模主题模型及其在腾讯业务中的应用

Peacock：大规模主题模型及其在腾讯业务中的应用2015/03/02分布式计算、机器学习、自然语言处理LDA、Peacock、数据并行、模型并行xueminzhaoPeacock：大规模主题模型及其在腾讯业务中的应用作者：赵学敏王莉峰王流斌孙振龙严浩靳志辉王益摘要如果用户最近搜索了“红酒木瓜汤”，那么应该展示什么样的广告呢？从字面上理解，可能应该

2015-03-03 16:46:44 1651