2016年04月_JXCypress

原创云计算概念

云计算是基于互联网的相关服务的增加，使用，交付模式，通常设计通过互联网来提供动态交易扩展且经常使用虚拟化的资源。云是网络、互联网的一种比喻说法，过去在途中往往用云来表示电信网，后来也用来表示互联网和底层基础设施。因此。与计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟爆炸、与车气候变化和市场发展趋势。用户通过电脑、笔记本手机等方式结束数据中心，按在自己的需求进行运算。

2016-04-28 10:05:28 390

转载 redies and memcache

1、 Redis和Memcache都是将数据存放在内存中，都是内存数据库。不过memcache还可用于缓存其他东西，例如图片、视频等等。 2、Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3、虚拟内存–Redis当物理内存用完时，可以将一些很久没用到的value 交换到磁盘 4、过期策略–memcache在set时就指定，例如set key

2016-04-25 22:27:37 452

原创生产消费模型demo

package cn.com;import java.util.Timer; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.LinkedBlockingQueue; import java.util.concurre

2016-04-25 22:18:09 313

转载 Impala

Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS或HBase中用SE

2016-04-25 21:21:11 961

转载 Impala与Hive的比较

http://tech.uc.cn/?p=1803

2016-04-25 19:44:59 724

原创 Elasticsearch

elasticsearch – 用于将导入数据建立动态倒排索引,建立磁盘缓存,提供磁盘同步控制,达到准实时检索 • Elasticsearch数据流向 – 动态更新lucene索引,规则:新收到的数据写入到新的索引文件里面 • 步骤: – 每次生成的倒排索引叫一个段(segment)然后另外使用一个commit文件记录索引内所有的segment,生成segment的数据来源是内存buf

2016-04-25 17:16:25 548

原创 zookeeper 原理

zookeeper 开源的hadoop 分布式协调服务，分布式服务可以基于他实现同步服务，配置维护和命名服务等。为什么使用zookeeper：大部分分布式应用需要一个主控，协调器或控制器来管理分布式的子进程（如资源，任务等）协调程序的反复便携浪费，切难以形成通用，伸缩性好的协调器提供分布式锁服务，用以协调分布式应用优点：实现最终一致性

2016-04-25 15:42:14 6766

原创 Flume

Flume clouder公司开源的产品 Flume 公司设计的目标可靠性：当节点发生故障时候，日志能够被传送到其他节点而不丢失，Flume提供三种可靠性保障： 1.end-to-end(exactly once) 2.store on failure(当数据接收方crash时，将数据写到本地，带恢复后，继续发送)

2016-04-25 15:24:00 490

GC基本原理GC（Garbage Collection)，是JAVA/.NET中的垃圾收集器。Java是由C++发展来的，它摈弃了C++中一些繁琐容易出错的东西，引入了计数器的概念，其中有一条就是这个GC机制（C#借鉴了JAVA）编程人员容易出现问题的地方，忘记或者错误的内存回收会导致程序或系统的不稳定甚至崩溃，Java提供的GC功能可以自动监测对象是否超过作用域从而达到自动回收内存的目的，Java

2016-04-23 23:45:09 481

转载 Mysql 原理

转发自美团技术团队博客 http://tech.meituan.com/mysql-index.html MySQL凭借着出色的性能、低廉的成本、丰富的资源，已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色，但所谓“好马配好鞍”，如何能够更好的使用它，已经成为开发工程师的必修课，我们经常会从职位描述上看到诸如“精通MySQL”、“SQL语句优化”、“了解数据库原理”等要求。我们知道一

2016-04-22 17:16:33 533

原创 HBase

Chapter 5. 数据模型Table of Contents5.1. 概念视图 5.2. 物理视图 5.3. 表 5.4. 行 5.5. 列族 5.6. Cells 5.7. 版本5.7.1. HBase的操作(包含版本操作)5.7.2. 现有的限制简单来说，应用程序是以表的方式在HBase存储数据的。表是由行和列构成的，所有的列是从属于某一个列族的。行和列的交叉点称之为cell

2016-04-22 17:06:35 7438

转载 RMDB & NoSQL

随着互联网的不断发展，各种类型的应用层出不穷，所以导致在这个云计算的时代，对技术提出了更多的需求，主要体现在下面这四个方面： 1. 低延迟的读写速度：应用快速地反应能极大地提升用户的满意度; 2. 支撑海量的数据和流量：对于搜索这样大型应用而言，需要利用PB级别的数据和能应对百万级的流量; 3. 大规模集群的管理：系统管理员希望分布式应用能更简单的部署和管理; 庞大运营成本的考量：IT

2016-04-22 16:42:59 4101

原创 Hive 优化

Hive 优化问题：数据倾斜（sum ,count 不存在数据倾斜） jobs 多 count（distinct）效率低，数据量一多就出问题方案：设计一个好的数据模型减少jobs数设置合理的mapper reducd 数目对小文件进行合并 ---------- 1.1 join 优化 Join 查找操作

2016-04-21 15:42:57 651

原创 Hive 个人笔记

HIVE 知识体系数据仓库：就是数据库，面向主题的，集成的，不。可更新的，随时间不变化的数据集合，他用于支持企业或组织的决策分析针对某一需求的，数据来源分散，不随时间变化，只用于数据查询。数据仓库的建立：数据源：———————–》数据抽取转化 ———->> 数据仓库引擎 ——–>> 前段展示业务数据系统，文档资料，其他数据

2016-04-21 15:11:00 684

转载 Trident-storm

原文链接：http://www.bubuko.com/infodetail-467560.html 一、概要 1.1 Storm(简介) Storm是一个实时的可靠地分布式流计算框架。具体就不多说了，举个例子，它的一个典型的大数据实时计算应用场景：从Kafka消息队列读取消息（可以是logs,clicks,sensor data）、通过Storm对消息进行计算聚合等预处

2016-04-11 18:02:41 308

原创 rpm package installed problem

rpm package installed problem Public key for “XXX”.rpm is not installed rpm –import /etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-5

2016-04-06 22:14:20 391

JXCypress