大数据
文章平均质量分 78
iteye_5347
这个作者很懒,什么都没留下…
展开
-
MetaQ安装部署文档
一.MetaQ安装部署情况:地点IPBroker IDMaster/SlaveSlave ID:Group合肥192.168.52.231Slave1:meta-slave-group-hf北京192.168.51.331Master/广州192.168.70.1571Slave2:meta-slav...原创 2015-01-23 08:37:36 · 143 阅读 · 0 评论 -
ZooKeeper示例 实时更新server列表
转自:http://coolxing.iteye.com/blog/1871520 通过之前的3篇博文, 讲述了ZooKeeper的基础知识点. 可以看出, ZooKeeper提供的核心功能是非常简单, 且易于学习的. 可能会给人留下ZooKeeper并不强大的印象, 事实并非如此, 基于ZooKeeper的核心功能, 我们可以扩展出很多非常有意思的应用. 接下来的几篇博文, 将...原创 2014-08-10 13:22:31 · 79 阅读 · 0 评论 -
zookeeper系列之通信模型
本文的主题就是讲解Zookeeper通信模型,本节将通过一个概要图来说明Zookeeper的通信模型。Zookeeper的通信架构在Zookeeper整个系统中,有3中角色的服务,client、Follower、leader。其中client负责发起应用的请求,Follower接受client发起的请求,参与事务的确认过程,在leader crash后的leader选择。而leade...原创 2014-08-08 16:31:14 · 102 阅读 · 0 评论 -
Storm实战——起步
翻译自:Getting Started With Storm (作者:Jonathan Leibiusky, Gabriel Eisbruch and Dario Simonassi)由于本人英文水平和理解有限,翻译难免错误,还望大家多多指正,请联系storm_getstarted@126.com欢迎大家留言跟帖或邮件至storm_getstarted@126.com,共同学习S...原创 2014-08-06 13:09:16 · 113 阅读 · 0 评论 -
高性能消息系统——Kafka
https://github.com/abhioncbr/Kafka-Message-Server 什么是Kafka?引用官方原文: “Kafka is a distributed, partitioned, replicated commit log service.”它提供了一个非常特殊的消息机制,不同于传统的mq。官网:https://kafka.apache....原创 2014-08-06 11:08:16 · 139 阅读 · 0 评论 -
Storm应用系列之——Topology部署
本系列属个人原创,转载请注明!原文地址:http://blog.csdn.net/xeseo/article/details/18219183本系列源码地址: https://github.com/EdisonXu/storm-sampleshttps://github.com/baijian/storm-javahttps://github.com/ashrithr/stor...原创 2014-08-06 10:46:49 · 135 阅读 · 0 评论 -
Hadoop集群及 Hive 安装
Hadoop安装指南 / Hive安装指南 Hadoop集群需要一个机器作为Master节点,其余的机器都是slave节点。HIVE只需在Master节点中安装和配置即可。 配置HadoopHadoop的配置比较简单,下面详细讲一下安装与配置步骤。以配置Hadoop 0.20.2版本为例。(1) 从hadoop官网上下载hadoop-0.20.2.tar.gz文...原创 2014-08-05 13:32:38 · 110 阅读 · 0 评论 -
Hadoop实战-中高级部分 之 HDFS原理 架构和副本机制
Hadoop RestFulHadoop HDFS原理1Hadoop HDFS原理2Hadoop作业调优参数调整及原理Hadoop HAHadoop MapReduce高级编程Hadoop IOHadoop MapReduce工作原理Hadoop 管理Hadoop 集群安装Hadoop RPC 第一部分:当前HDFS架构详尽分析...原创 2014-08-05 13:32:16 · 582 阅读 · 0 评论 -
MapReduce工作原理图文
MapReduce工作原理图文详解目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程正文:1.MapReduce作业运行流程下面贴出我用visio2010画出的流程示意图: 流程分析:1.在客户端启动一个作业。2.向JobTracker请求一个Job ID。3.将运行作业所需要的资源文件复制到HDFS上,包括M...原创 2014-08-05 13:31:42 · 104 阅读 · 0 评论 -
Storm集群安装部署步骤
Storm集群安装部署步骤开始学习Storm,本文主要记录Storm集群安装部署步骤,不包括对Storm的介绍。安装storm集群,需要依赖以下组件:ZookeeperPythonZeromqStormJDKJZMQ故安装过程根据上面的组件分为以下几步:安装JDK安装Zookeeper集群安装Python及依赖安装Storm另外...原创 2014-08-05 13:30:47 · 103 阅读 · 0 评论 -
Java MongoDB Tutorial
The following Java / Spring Data MongoDB tutorials and examples are tested with :MongoDB 2.2.3Java-MongoDB-Driver 2.11.0Spring-Data-MongoDB 1.2.0.RELEASE1. MongoDB Core ExamplesMongoDB in...原创 2014-07-30 16:52:02 · 88 阅读 · 0 评论 -
Redis介绍以及安装(Linux)
转自:http://www.cnblogs.com/silent2012/p/3499654.html redis是当前比较热门的NOSQL系统之一,它是一个key-value存储系统。和Memcached类似,但很大程度补偿了memcached的不足,它支持存储的value类型相对更多,包括string、list、set、zset和hash。这些数据类型都支持push/pop、add/...原创 2014-07-29 17:16:01 · 76 阅读 · 0 评论 -
Solr入门之SolrServer实例化方式
http://blog.sina.com.cn/s/blog_5ddc071f0101mts1.html 随着solr版本的不断升级, 差异越来越大, 从以前的 solr1.2 到现在的 solr4.3, 无论是类还是功能都有很大的变换, 为了能及时跟上新版本的步伐, 在此将新版本的使用做一个简单的入门说明: Solr3.6版本 SolrServer实例化类型有ht...原创 2014-07-11 13:35:42 · 227 阅读 · 0 评论 -
flume拦截器
RegexExtractorInterceptor作为一个Interceptor实现类可以根据一个正则表达式匹配event body来提取字符串,并使用serializers把字符串作为header的值实例:以如下的命令使用execsource收集日志的时候,可以根据文件的名称设置不同的header,进行不同的操作1234#!/bin/shfi...原创 2017-04-26 17:05:02 · 341 阅读 · 0 评论 -
flume+elasticsearch
转自:http://blog.csdn.net/yujimoyouran/article/details/59104131简单描述一下这个例子:将项目日志实时采集到elasticsearch,便于统一管理。1. 收集日志格式为:log4j.properties : org.apache.log4j.Logger: %d{ISO8601} [%l-%M]-[%p] %t %m%n...原创 2017-04-26 16:54:31 · 445 阅读 · 0 评论 -
zookeeper机制原理
zookeeper机原理(长连接):Zookeeper 并不是用来专门存储数据的,它的作用主要是用来维护和监控你存储的数据的状态变化。通过监控这些数据状态的变化,从而可以达到基于数据的集群管。当对目录节点监控状态打开时,一旦目录节点的状态发生变化,Watcher 对象的 process 方法就会被调用。(任何实现org.apache.zookeeper.Watcher类,持有zook...原创 2014-08-10 13:23:26 · 172 阅读 · 0 评论 -
zookeeper observer
observer的行为在大多数情况下与follower完全一致, 但是他们不参加选举和投票, 而仅仅接受(observing)选举和投票的结果.observer可以在不影响写性能的情况下提升集群的读操作的性能,他只接受读请求,将写请求转发给leader。配置方法:1,设置为observer的节点必须显示的在zoo.cfg中进行如下配置server.4=ip:2888:3888:...原创 2014-08-11 15:41:24 · 536 阅读 · 0 评论 -
Solr学习之五:Solr查询参数及语法
一. 查询参数1. CoreQueryParam查询的参数1) q: 查询字符串,必须的。2) q.op: 覆盖schema.xml的defaultOperator(有空格时用"AND"还是用"OR"操作逻辑),一般默认指定。3) df: 默认的查询字段,一般默认指定。4) qt: query type,指定查询使用的QueryHandler,默认为“standard”。...原创 2014-08-14 16:23:58 · 205 阅读 · 0 评论 -
flume日志采集
1. Log4j Appender1.1. 使用说明1.1.2. Client端Log4j配置文件(黄色文字为需要配置的内容)log4j.rootLogger=INFO,A1,R # ConsoleAppender outlog4j.appender.A1=org.apache.log4j.ConsoleAppenderlog4j.appen...原创 2014-10-29 09:45:12 · 112 阅读 · 0 评论 -
ZooKeepr日志清理
转载请用注明:@ni掌柜 nileader@gmail.com在使用zookeeper过程中,我们知道,会有dataDir和dataLogDir两个目录,分别用于snapshot和事务日志的输出(默认情况下只有dataDir目录,snapshot和事务日志都保存在这个目录中,关于这两个目录的详细说明,请看《ZooKeeper管理员指南 》)。 正常运行过程中,ZK会...原创 2014-09-24 13:28:06 · 93 阅读 · 0 评论 -
zookeeper的数据存储和同步
一,zookeeper中的文件存储及相关配置zookeeper启动后,会将所有数据加载到内存中,但是也会在硬盘上留下数据文件和日志文件便于恢复。在配置文件中,有如下的一些参数与文件相关:dataDir:保存内存快照数据的目录;dataLogDir:保存 transaction log的目录;globalOutstandingLimit :单台服务器上未完成的最大客户端请求数...原创 2014-09-22 13:12:36 · 353 阅读 · 0 评论 -
mongo客户端mongo VUE增删改查
转自:http://my.oschina.net/u/1026531/blog/188336 一、先创建一张mongo表,右击已创建的数据库test,点击addcollection..输入Collection Name,点击ok;二、在创建的表中新增列与数据,右击表选择Insert document点击Insert,刷新表。三、查询数据右击表格,点击Find1...原创 2014-09-15 17:09:32 · 99 阅读 · 0 评论 -
Twemproxy – Twitter 开源的 Redis proxy
Twemproxy – Twitter 开源的 Redis proxy作者:nosqlfan on 星期天, 一月 20, 2013 · 评论本文 【阅读:9,850 次】在去年的QCon London2012 大会上,Twitter 发表了题为 《Timelines @ Twitter》的演讲,里面提到以Redis作为其timeline的主要存储,目前目测全球范围内,Twitter可能是...原创 2014-09-09 11:06:09 · 140 阅读 · 0 评论 -
ZooKeeper与Diamond有什么不一样
转载请注明:@ni掌柜 nileader@gmail.com 本文主要是讨论下两个类似产品:ZooKeeper和Diamond在配置管理这个应用场景上的异同点。 Diamond,顾名思义,寄寓了开发人员对产品稳定性的厚望,希望它像钻石一样,提供稳定的配置访问。Diamond是淘宝网Java中间件团队的核心产品之一,服务于集团线上很多核心应用。目前已经开源,开源地址在:http://...原创 2014-09-04 15:46:16 · 102 阅读 · 0 评论 -
zookeeper原理介绍
第一章 Zookeeper server1.1 Zookeeper基本原理 1.1.1 Zookeeper的保证l 顺序性,client的updates请求都会根据它发出的顺序被顺序的处理;l 原子性, 一个update操作要么成功要么失败,没有其他可能的结果;l 一致的镜像,client不论...原创 2014-09-03 15:04:17 · 67 阅读 · 0 评论 -
ZooKeeper管理员指南——部署与管理ZooKeeper
转载请注明:@ni掌柜 nileader@gmail.com本文以ZooKeeper3.4.3版本的官方指南为基础:http://zookeeper.apache.org/doc/r3.4.3/zookeeperAdmin.html,补充一些作者运维实践中的要点,围绕ZK的部署和运维两个方面讲一些管理员需要知道的东西。本文并非一个ZK搭建的快速入门,关于这方面,可以查看《ZooKeeper快速...原创 2014-09-03 14:26:13 · 103 阅读 · 0 评论 -
storm简介
转自:http://www.searchtb.com/2012/09/introduction-to-storm.html伴随着信息科技日新月异的发展,信息呈现出爆发式的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。举个搜索场景中的例子,当一个卖家发布了一条宝贝信息时,他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦,相反,如果这个宝贝...原创 2014-08-21 17:27:01 · 80 阅读 · 0 评论 -
Solr performance tuning
http://h3x.no/2011/05/10/guide-solr-performance-tuningIntroductionI have for the last year been working a lot with the Solr search engine, and figuring out how to get the best performance from...原创 2014-08-19 15:22:29 · 168 阅读 · 0 评论 -
SSDB 部署
转自:http://ssdb.io/docs/zh_cn/install.html 强烈推荐你把 SSDB 部署在 Linux 操作系统上.不要在生产环境中使用 Windows 操作系统来运行 SSDB 服务器. 如果你确实必须使用 Windows 操作系统, 请在上面运行一个 Linux 虚拟机, 然后再让 SSDB 运行于这个虚拟机之中.编译和安装wget --no-ch...原创 2014-08-18 13:27:39 · 132 阅读 · 0 评论 -
Solr之缓存篇
Solr在Lucene之上开发了很多Cache功能,从目前提供的Cache类型有:(1)filterCache(2)documentCache(3)fieldvalueCache(4)queryresultCache而每种Cache针对具体的查询请求进行对应的Cache。本文将从几个方面来阐述上述几种Cache在Solr的运用,具体如下:(1)Cache的生命周期(2...原创 2014-08-15 17:41:59 · 139 阅读 · 0 评论 -
用于企业的 Solr
使用 Apache Solr 实现更加灵巧的搜索,第 2 部分: 用于企业的 Solr管理、配置和性能在本部分中,Lucene Java™ 的提交人 Grant Ingersoll 通过对用于企业的特性(包括管理界面、高级配置选项)以及与性能相关的特性(比如缓存、复制和日志记录)的探究,完成了对 Solr 的介绍。0 评论:Grant Ingersol...原创 2014-08-15 14:03:42 · 142 阅读 · 0 评论 -
solr缓存
Solr 搜索引擎,因此其数据缓存是定义在 Solr 核心配置文件 solrconfig.xml. 一般情况下,如果 Solr 应用的内存足够,将这些缓存设置大一些会得到更好的性能。过滤器缓存 (Filter cache). Solr 中通过过滤器查询来缩小搜索范围,以有助于提升搜索性能。对 于每个过滤结果,可以放置在专用缓存中。这个缓存通过过滤查询条件作为缓存关键字,相同的查询会通过缓 存...原创 2014-08-15 14:01:34 · 154 阅读 · 0 评论 -
hcatalog简介和使用
Hcatalog是apache开源的对于表和底层数据管理统一服务平台,目前最新release版本是0.5,不过需要hive 0.10支持,由于我们hive集群版本是0.9.0,所以只能降级使用hcatalog 0.4,由于hcatalog中所有的底层数据信息都是保存在hive metastore里,所以hive版本升级后schema变动或者api变动会对hacatalog产生影响,因此在hive...原创 2016-11-24 09:46:55 · 984 阅读 · 0 评论 -
Sqoop-1.4.6安装部署及详细使用介绍
之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用,综合比较后选择Sqoop1。Sqoop1安装配置比较简单一、安装部署(1)、下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz解压到/opt/cdh5/sqoop(2)、拷贝MySQL的jdbc驱动包mysql-c...原创 2016-11-07 09:44:19 · 129 阅读 · 0 评论 -
Spark基本工作流程及YARN cluster模式原理
转载请注明出处:http://www.cnblogs.com/BYRans/Spark基本工作流程相关术语解释Spark应用程序相关的几个术语:Worker:集群中任何可以运行Application代码的节点,类似于YARN中的NodeManager节点。在Spark on Yarn模式中指的就是NodeManager节点;Executor:Application运行在Wo...原创 2016-10-21 10:50:52 · 298 阅读 · 0 评论 -
机器学习之——机器学习10大经典算法
转自:http://blog.csdn.net/xxinliu/article/details/7408742 1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立...原创 2015-12-17 18:25:43 · 154 阅读 · 0 评论 -
zookeeper配置
# The number of milliseconds of each tick tickTime=1000 # The number of ticks that the initial # synchronization phase can take initLimit=10 # The number of ticks that can pass ...原创 2015-12-09 09:59:50 · 115 阅读 · 0 评论 -
Redis集群技术及Codis实践
本文主要讨论Redis集群相关技术及新发展,关于Redis运维等内容,以后另开主题讨论。本文重点推荐Codis——豌豆荚开源的Redis分布式中间件(该项目于4个月前在GitHub开源,目前star已超过2100)。其和Twemproxy相比,有诸多激动人心的新特性,并支持从Twemproxy无缝迁移至Codis。本文主要目录如下,对Redis比较了解的朋友,可跳过前两部分,直接...原创 2015-12-08 14:35:42 · 106 阅读 · 0 评论 -
Spark 快速入门
http://colobu.com/2014/12/08/spark-quick-start/ Spark 快速入门目录 [−]使用Spark进行交互式分析基本操作更多的RDD操作缓存独立应用深入了解本教程快速介绍了Spark的使用。 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如...原创 2015-11-18 18:06:56 · 91 阅读 · 0 评论 -
从入门到高深,史上最全的Spark综合帖
什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的...原创 2015-11-18 18:01:59 · 131 阅读 · 0 评论