分布式
文章平均质量分 82
千丈之松
开放、平等、协作、分享;
现代互联网精神。
展开
-
Nutch相关框架安装使用最佳指南
一、nutch1.2二、nutch1.5.1三、nutch2.0四、配置SSH五、安装Hadoop Cluster(伪分布式运行模式)并运行Nutch六、安装Hadoop Cluster(分布式运行模式)并运行Nutch七、配置Ganglia监控Hadoop集群和HBase集群八、Hadoop配置Snappy压缩九、Hadoop配置Lzo压缩 十、配置zooke转载 2015-03-13 17:57:54 · 1041 阅读 · 0 评论 -
Logstash+ElasticSearch+Kibana日志分析系统
线上需求:处理nginx的访问access日志和商城的搜索历史记录。(由于访问量不大、没有用到redis或者其他消息队列)。之前做的一个版本使用solrcloud做电商搜索引擎、elasticsearch做实时日志系统。参考文档资料:http://elasticsearch.cn/ medcl的中文社区http://kibana.logstash.es/原创 2016-01-12 12:52:05 · 1776 阅读 · 0 评论 -
kafka学习笔记
消息队列(message,queue)MQ:解耦合。(无系统的侵入性)提高系统的响应时间分类:点对点的。消息生产者发布到queue中之后,然后消息消费者从queue中取出,并且消费消息缺点:消息被消费之后,queue中就不再存储,所以消息消费者不可能消费到已经被消费的消息。queue支持多个消费者,但是对于一个消息而言,只会有一个消费者可以消费。不能再次消费原创 2016-04-15 16:50:42 · 788 阅读 · 0 评论 -
分布式服务化系统一致性的“最佳实干”
1 背景一致性是一个抽象的、具有多重含义的计算机术语,在不同应用场景下,有不同的定义和含义。在传统的IT时代,一致性通常指强一致性,强一致性通常体现在你中有我、我中有你、浑然一体;而在互联网时代,一致性的含义远远超出了它原有的含义,在我们讨论互联网时代的一致性之前,我们先了解一下互联网时代的特点,互联网时代信息量巨大、需要计算能力巨大,不但对用户响应速度要求快,而且吞吐量指标也要向外扩展(转载 2017-03-29 09:54:19 · 3472 阅读 · 0 评论 -
从Elasticsearch集群及数据层架构,看分布式系统设计
分布式系统类型多,涉及面非常广,不同类型的系统有不同的特点,批量计算和实时计算就差别非常大。这篇文章中,重点会讨论下分布式数据系统的设计,比如分布式存储系统,分布式搜索系统,分布式分析系统等。我们先来简单看下Elasticsearch的架构。一、Elasticsearch集群架构Elasticsearch是一个非常著名的开源搜索和分析系统,目前被广泛应用于互联网多种领域中,尤其是以下三个领域特别突...原创 2018-03-02 19:05:59 · 463 阅读 · 1 评论 -
从分布式系统设计看Elasticsearch集群及数据结构
一: 概述es本质上就是由分布式思想+lucene组合而成,因为lucene的存在,它比一般的分布式系统会稍微复杂一点,es采取的分布式思想是分片+副本+去中心化。es持久化的方式是:副本索引文件+translog文件,es默认配置下,为了比较好的速度,选择了性能,是可能丢数据的(5s)。redis aof是1s。和redis一样,在性能和可靠性中选择,如果选择直接写入磁盘,es写性能会损...原创 2018-08-04 10:02:55 · 1834 阅读 · 0 评论 -
Redis特性和性能调优
概要在分布式里面满足CP (一致性、分区容错性)。性能:对于单纯只有IO操作来说,单线程可以将速度优势发挥到最大,但是Redis也提供了一些简单的计算功能,比如排序、聚合等,对于这些操作,单线程模型实际会严重影响整体吞吐量,CPU计算过程中,整个IO调度都是被阻塞住的。一 Redis和Memcached对比1:数据类型:Memcached单个key-value大小有限,一个val...原创 2018-08-17 11:37:18 · 14544 阅读 · 1 评论 -
分布式理论和系统架构设计
CAP理论分布式锁分布式一致性分布式事务负载均衡微服务 一 CAP和BASE理论1.1 CAP理论 分布式领域中存在CAP理论,且该理论已被证明:任何分布式系统只可同时满足两点,无法三者兼顾。很多系统在设计之初就要对这三者做出取舍。在互联网领域的绝大多数的场景中,都需要牺牲强一致性来换取系统的高可用性,系统往往只需要保证“最终一致性”,只要这个...原创 2018-08-17 11:58:36 · 556 阅读 · 0 评论 -
用ELK 实时处理搜索日志
本来这块业务 是放到SolrCloud上去的 , 然后 采用solr的facet统计查询,具体代码参考之前写的文章:http://blog.csdn.net/hu948162999/article/details/50162643 最近遇到SolrCloud 遇到一些问题。。查询db时间过长,SolrCloud的长连接CloudSolrServer老timeout,索引的效率也不够满原创 2016-01-27 17:53:38 · 6461 阅读 · 0 评论 -
SolrCloud简介和搭建指导
一、搜索集群架构简介1.1整体功能描述通过独立的zookeeper集群管理solrcloud集群。Solrcloud集群负责索引的创建、查询、更新和删除操作。Solrcloud集群做sharding,每个sharding内做主从备份。Search服务通过zookeeper集群获取solrcloud信息,向solrcloud提交用户信息索引请求,并向solrcloud提交用户信息搜索原创 2015-12-09 16:07:14 · 1149 阅读 · 1 评论 -
Zookeeper笔记(安装)
3台服务器集群。一:分别在这3台服务器上安装jdk,我采取的是jdk1.8。二:主机名称到IP地址映射配置三:修改ZooKeeper配置文件下载zookeeper-3.4.6.tar.gz,解压到/opt 目录。创建 ZooKeeper 配置文件 zookeeper-3.4.6/conf/zoo.cfg,vi conf/zoo.cfg。添加以下内容原创 2015-04-15 19:14:58 · 3726 阅读 · 0 评论 -
Zookeeper笔记
Zookeeper和Hadoop: 1:hadoop是 一旦namenode一挂掉,整个集群就完了。 2:zk 的健壮性是hadoop不能比拟的。相对于hadoop的 单点模式,,zookeeper集群,当server的leader失效时或者失去太多的follower,zk集群进入恢复模式,恢复模式会自动选举出一个新的leader,让所有的server都恢复到一个正确的状态。流程图:原创 2015-04-15 19:11:59 · 971 阅读 · 0 评论 -
分布式全文检索系统SolrCloud
前言本文简单描述SolrCloud的特性,基本结构和入门,基于Solr4.5版本。Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库。Solr是以Lucene为基础实现的文本检索应用服务。SolrCloud是Solr4.0版本开发出的具有开创意义的基于Solr和Zookeeper的分布式搜索方案,或者可以说,SolrCloud是Solr的一种部署方式。Sol转载 2015-06-19 16:02:42 · 1081 阅读 · 0 评论 -
Hadoop,HBase,Storm,Spark到底是什么?
Hadoop,HBase,Storm,Spark到底是什么?Hadoop=HDFS+Hive+Pig+...HDFS: 存储系统MapReduce:计算系统Hive:提供给SQL开发人员(通过HiveQL)的MapReduce,基于Hadoop的数据仓库框架Pig:基于Hadoop的语言开发的HBase:NoSQL数据库Flume:一个收集处理Hadoop数据的转载 2015-08-21 16:29:26 · 695 阅读 · 0 评论 -
Zookeeper命令
ZooKeeper进行访问,数据创建,数据修改等操作. 使用 zkCli.sh -server 127.0.0.1:2181 连接到 ZooKeeper 服务,连接成功后,系统会输出 ZooKeeper 的相关环境以及配置信息。命令行工具的一些简单操作如下:1. 显示根目录下、文件: ls / 使用 ls 命令来查看当前 ZooKeeper 中所包含的内容2. 显示根目录下、文件原创 2015-11-16 16:24:44 · 530 阅读 · 0 评论 -
Zookeeper 笔记问答
问题:zookeeper 作用?答:最重要的是保证分布式的数据的一致性 解决了单点故障 问题:zookeeper写的过程? 把任务tesk 通过 提交给client,client把tesk提交给连接的server,server在提交给leaderserver。。把任务提交给队列。然后进行投票 过半则进行任务。也就是过半写成功策越问题:为什么一般zooke原创 2015-11-27 17:11:18 · 814 阅读 · 0 评论 -
HDFS MapReduce笔记
hadoop的HDFS hadoop分布式文件系统NameNode :存储元数据,比如(文件名,文件权限) ,负责处理client端发起的请求任务,读写都先访问namenode 元数据保存到内存中,同时落地到磁盘fsimage ,edits记录了对metadata的操作日志保存文件,block,datanode之间的映射关系。 block 的位置信息保原创 2015-12-16 16:36:58 · 493 阅读 · 0 评论 -
hadoop2.0 HA高可用笔记和搭建流程
一:hadoop2.X 笔记hadoop1.0中,HDFS存在的问题-NameNode单点故障-NameNode压力过大、内存受限MapReduce存在的问题 ---mapReduce 计算时间 比较长JobStacker 访问压力大,影响系统的扩容性在1.x中 不支持spark。stormHadoop2.x 由Hdfs、MapReduce和YARN三个原创 2015-12-15 18:27:42 · 710 阅读 · 0 评论 -
hadoop入门和简易分布式搭建
. Hadoop简介 hadoop是apache的开源项目,原创 2014-09-04 21:30:54 · 3611 阅读 · 4 评论 -
技术交流,扫描关注技术公众号!
精选各领域互联网技术, 推送前后端、算法、人工智能领域优质技术文章!! 本公众号由阿里、网易、美团等团队组成精选各领域互联网技术, 推送前后端、算法、人工智能领域优质技术文章!! 本公众号由阿里、网易、美团等团队组成。...原创 2018-11-20 20:40:13 · 388 阅读 · 0 评论