【大数据】
文章平均质量分 82
洪文聊架构
请关注我的公众号[洪文聊架构],洪文,让我们一起探索架构师之路!
展开
-
面对百亿数据,Hbase为什么查询速度依然非常快?
HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。那么Hbase是如何做到的呢?接下来,介绍一下数据的查询思路和过程。查询过程:第1步:项目有100亿业务数据,存储在一个Hbase集群上(由多个服务器数据节点构成),每个数据节点上有若干个Region(区域),每个Region实际上就是Hbase中一批数据的集合(比如20万条数据)。我们现在开始根据主键RowKey来查询对应的记录,Hbase的Master帮我们迅速定位到该原创 2021-03-01 23:11:37 · 2030 阅读 · 4 评论 -
架构视角:什么业务场景用Hbase?
要想非常明确什么场景下用Hbase,那么我们来先了解下Hbase的主要核心特性,那么在什么业务场景下用Hbase,就比较清晰了!Hbase是一种在Hadoop之上的NoSQL的Key/vale数据库,底层依靠HDFS进行数据存储。一、Hbase核心特性海量数据存储面对互联网应用的海量数据,传统关系型数据库比如mysql,一般单表不会超过一千万,并且单表字段数量也一般不会超过100个,否则性能急剧下降。但基于Hbase的设计理念与存储原理,Hbase单表可以有百亿行、百万列,在横向和纵向两个维度所支原创 2021-02-20 12:08:03 · 779 阅读 · 2 评论 -
Centos7环境Hbase集群搭建
Hbase集群搭建基于上一篇Hadoop集群已经搭建完成基础上(需要的朋友可以翻看我的上一篇博文),我们来完成Hbase的搭建工作。一、节点规划服务/机器node21(10.10.26.21)node245(10.10.26.245)node255(10.10.26.255)NameNodeYDataNodeYYYZookeeperYYYRegionServerYYYHBase MasterY二、Zookeeper集群原创 2021-02-19 12:10:43 · 488 阅读 · 0 评论 -
Centos7环境Hadoop3集群搭建
Centos 7 环境 hadoop 3.2.1分布式集群搭建由于项目需要存储历史业务数据,经过评估数据量会达到100亿以上,在原有mongodb集群和ES集群基础上,需要搭建Hbase集群进行调研,所以首先总结一下Hadoop集群的搭建过程。一、三个节点的集群规划:hostname(IP)node21(10.10.26.21)node245(10.10.26.245)node255(10.10.26.255)HDFSNameNode、DataNodeDataNodeDa原创 2021-02-19 11:33:10 · 398 阅读 · 0 评论 -
10亿数据要存要查,选Mongodb还是Elalsticsearch?
项目启动,预估超过10亿的文档数据要存储,那么我们选择Elasticsearch or Mongodb?明确两者定位MongoDB和Elasticsearch都属于NoSQL范畴的数据库,且都属于文档型数据存储数据库。所以这两者的众多功能和特性高度重合, 但其实两者定位还是有所不同。MongoDB是文档型数据库, 提供数据存储和管理服务。Elasticsearch作为一个搜索引擎,定位是提供数据检索服务,也就是说重点是全文索引,即模糊匹配。因此,Elasticsearch的设计会有所偏重,比如M原创 2021-02-02 23:28:51 · 2951 阅读 · 0 评论 -
服务端高并发分布式架构演进之路
转自:https://segmentfault.com/a/1190000018626163 【向作者致敬】1. 概述本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一些架构设计的原则。2. 基本概念在介绍架构之前,为了避免部分读者对架构设计中的一些概念不...转载 2019-11-03 21:07:13 · 347 阅读 · 0 评论 -
太多选择——如何挑选合适的大数据或 Hadoop 平台? CDH与原生Hadoop区别?
今年,大数据在很多公司都成为相关话题。虽然没有一个标准的定义来解释何为 “大数据”,但在处理大数据上,Hadoop 已经成为事实上的标准。IBM、Oracle、SAP、甚至 Microsoft 等几乎所有的大型软件提供商都采用了 Hadoop。然而,当你已经决定要使用 Hadoop 来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。你有多种选择来安装 Hadoop 的一个版本并实现大数...转载 2019-08-28 17:33:23 · 1841 阅读 · 0 评论 -
Elasticsearch如何做到亿级数据查询毫秒级返回?
如果面试的时候碰到这样一个面试题:ES 在数据量很大的情况下(数十亿级别)如何提高查询效率?这个问题说白了,就是看你有没有实际用过 ES,因为啥?其实 ES 性能并没有你想象中那么好的。很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下 5~10s,坑爹了。第一次搜索的时候,是 5~10s,后面反而就快了,可能就几百毫秒。你就...转载 2019-08-15 17:38:40 · 340 阅读 · 0 评论 -
Elasticsearch 数据搜索条件字段参数详解
ES即简单又复杂,你可以快速的实现全文检索,又需要了解复杂的REST API。本篇就通过一些简单的搜索命令,帮助你理解ES的相关应用。虽然不能让你理解ES的原理设计,但是可以帮助你理解ES,探寻更多的特性。其他相关的内容参考:Elasticsearch官方文档翻译样例数据为了更好的使用和理解ES,没有点样例数据还是不好模拟的。这里提供了一份官网上的数据,accounts.js...转载 2019-07-22 17:33:23 · 1244 阅读 · 0 评论 -
机器学习最好的科普文章
转自 飞鸟各投林史上最强----机器学习经典总结---入门必读----心血总结-----回味无穷让我们从机器学习谈起导读:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一转载 2017-10-20 16:01:56 · 3376 阅读 · 0 评论 -
数据库分区分表和提升性能
http://my.oschina.NET/tinyframework/blog/186583序言一直在做企业应用,目前要做一些互联网应用,当然只是应用是放在互联网的,数据量距离真正的互联网应用还是有相当大的差距的。但是不可避免的,在数据库出现瓶颈的情况还是有的,现在做互联网上的应用,当然也要未雨绸缪,要考虑数据量大的时候的解决方案。这个目前开源的商用的也都有不少解转载 2017-08-24 11:53:37 · 2193 阅读 · 0 评论 -
全文索引原理详解
一、总论根据http://lucene.apache.org/java/docs/index.html 定义:Lucene 是一个高效的,基于Java 的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据 和非结构化数据 。结构化数据: 指具转载 2017-08-22 12:44:40 · 6927 阅读 · 6 评论 -
为什么越来越多的公司在使用Spark Streaming
为什么越来越多的公司在使用Spark Streaming1,122 次阅读 - 基础架构作者:孙镜涛Databricks最近对1400多家Spark用户进行了一次调查,结果显示这些用户对Spark Streaming的使用率与2014年相比增长了56%,另外,有48%的受访者将Spark Streaming标记为最常用的Spark组件。在Spark Stre转载 2017-08-16 11:49:00 · 1994 阅读 · 0 评论 -
阿里内部分享:大数据业务平台两年发展历程-pefect,大数据的一些经验
摘要: 这篇文章来自一个公司内部的分享,是自己所服务的业务中数据平台的发展历程,已经讲了有几个月了,最近打算挑几个点拿出来用文章的形式写出来。是自己进入公司以来参与过或者接触过的数据型项目的情况。 这篇文章来自一个公司内部的分享,是自己所服务的业务中数据平台的发展历程,已经讲了有几个月了,最近打算挑几个点拿出来用文章的形式写出来。是自己进入公司以来参与过或转载 2017-08-16 11:22:37 · 803 阅读 · 0 评论 -
Esper学习和原理分析
最近一直有同事跟我说目前开发的数据流平台仅仅只是把数据推送过来作用不大。希望最好能够连数据分析也一起做了,告诉他们结果就好。这样的需求一般交给数据分析组去做就好了,不过了解了一下现在只有离线分析,最快也只能半小时统计一次,实时分析这块还没有实现。 去搜了下,看看有哪些开源的实时分析引擎可以用。之前先看了下storm,twitter做的,大公司大品牌,完全开源,看上去的确不错。但是看转载 2014-06-23 16:36:36 · 3608 阅读 · 0 评论