人工智能—大数据
文章平均质量分 88
介绍Hadoop、HDFS、Spark、Flink、Storm、实时计算等大数据相关知识
测试开发abbey
高级测试工程师,2年C语言开发,4年服务端测开,擅长服务端测试、音视频测试
展开
-
分布式实时计算—从霍普金大学数据错误谈谈如何保证实时计算数据准确性
原文作者:实时流式计算原文地址:从霍普金大学数据错误谈谈如何保证实时计算数据准确性作为全球新冠疫情数据的实时统计的权威,约翰斯·霍普金斯大学的实时数据一直是大家实时关注的,也是各大媒体的主要数据来源。在今天早上的相当一段长的时间,霍普金斯大学的全球疫情分布大屏中显示,全球确诊人数已经突破200万。有图有真相随后相关媒体也进行了转发,不过这个数据明显波动太大,随后该网站也修改了数据约翰斯·霍普金斯大学系统科学与工程中心就制作了“全球新冠病毒扩散地图”,用于实时可视化和跟踪报告..原创 2021-02-18 22:49:17 · 770 阅读 · 0 评论 -
《阿里巴巴数据中台实践》深入理解
4、以阿里云为支撑的大中台小前台战略这张图很好的诠释了阿里的商业操作系统引擎:阿里云平台做支撑,做大中台,做小前台。这里要重点说一下业务数据化和数据业务化两个概念。业务数据化:就是所有的商业活动都应该记录下相关的数据,这是业务中台应该承担的使命。业务数据化挑战其实很大,以前业务平台在设计的时候,是以功能和流程为核心的,只记录对于要实现功能和流程必需的数据,其他的就可有可无了。比如运营商的一些信令日志记录不全面导致可能影响后续的网络分析或数据价值变现,这就没有做到业务数据化。但业务数据化有时...转载 2020-12-14 11:09:50 · 1478 阅读 · 0 评论 -
分布式计算—MapReduce、Spark、Storm、Flink分别适用什么场景
作者:ezaya链接:https://www.zhihu.com/question/403840013/answer/1317631316著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。目录一、MapReduce二、Spark三、Flink & Storm四、总结这四个项目能放在一起比较的背景应该是分布式计算的演进过程。一、MapReduce开源分布式计算的第一个流行的框架是 Hadoop 项目中的 MapReduce 模块。它将所有计算抽.原创 2021-02-18 00:00:36 · 6430 阅读 · 4 评论 -
分布式实时计算—实时数据质量如何保障?
原文作者:阿里巴巴文娱技术原文地址:算法基石-实时数据质量如何保障?目录一、现状分析二、实时数据质量保障体系方案三、线下质量四、线上质量五、质量效能六、产品体验实时自动化保障优酷视频搜索是文娱分发场最核心的入口之一,数据源多、业务逻辑复杂,尤其实时系统的质量保障是一个巨大挑战。如何保障数据质量,如何衡量数据变化对业务的影响?本文会做详细解答。一、现状分析搜索数据流程如下图所示,从内容生产到生成索引经历了复杂的数据处理流程,中间表多达千余张,实时数据消费即消失,.原创 2021-02-18 22:32:52 · 1634 阅读 · 0 评论 -
分布式实时计算—实时计算相关问题及解决方案
原文作者:孟知之原文地址:实时计算相关问题及解决方案目录1. 怎么处理 Spark structured streaming 慢速变化数据 join 的问题?2. Kafka不稳定导致Spark Streaming不稳定3. Flume当中出现了流量瓶颈4. Kafka的流量问题1. 怎么处理 Spark structured streaming 慢速变化数据 join 的问题?问题:从 MySQL 的一个表里面提取 metadata 然后和 structured s.原创 2021-02-17 23:43:38 · 519 阅读 · 2 评论 -
分布式实时计算—Storm—基础介绍
一、概念Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的 数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。二、集群架构27.1.1.1. Nimbus(master-代码分发给Supervisor)Storm集群的Master节点,负责分发用户代码,指派给具体的Supervisor节点上的Worker节点,去运行Topology对应的组件(Spout/Bolt)的Task。...原创 2021-02-12 21:00:47 · 880 阅读 · 1 评论 -
分布式离线计算—Spark—SparkStreaming
原文作者:阿里中间件原文地址:一文读懂 Spark 和 Spark Streaming目录MapReduce 的问题所在Spark 与 RDD 模型流计算框架:Spark Streaming流计算与 SQL:Spark Structured Streaming系统架构总结前言Apache Spark 是当今最流行的开源大数据处理框架。和人们耳熟能详的 MapReduce 一样,Spark 用于进行分布式、大规模的数据处理,但 Spark 作为 MapReduce..原创 2021-01-25 15:23:38 · 878 阅读 · 0 评论 -
分布式离线计算—Spark—基础介绍
原文作者:饥渴的小苹果原文地址:【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要:Spark是基于内存计算的大数据并行计算框架Spark使用DAG引擎,支持Scala、jav.原创 2021-01-25 14:25:44 · 2524 阅读 · 0 评论 -
分布式离线计算—HiveSQL
原文作者:极客教程原文地址:Hive 简介目录MapReduce实现SQL的原理Hive的架构Hive如何实现join操作总结Hive 简介,Hive是Hadoop大数据仓库Hive。在数据仓库中,SQL是最常用的分析工具,既然一条SQL可以通过MapReduce程序实现,那么有没有工具能够自动将SQL生成MapReduce代码呢,答案就是Hive。MapReduce的出现大大简化了大数据编程的难度,使得大数据计算不再是高不可攀的技术圣殿,普通工程师也能使用MapRedu.原创 2021-01-26 09:23:01 · 534 阅读 · 1 评论 -
分布式离线计算—MapReduce—基本原理
原文作者:黎先生原文地址:MapReduce基本原理及应用目录一、MapReduce模型简介1. Map和Reduce函数2. MapReduce体系结构3. MapReduce工作流程4. MapReduce应用程序执行过程二 、WordCount运行实例1.WordCount的Map过程2. WordCount的Reduce过程3. WordCount源码一、MapReduce模型简介 MapReduce将复杂的、运行于大规模集群上的并行计算过..原创 2021-01-23 21:20:49 · 827 阅读 · 0 评论 -
分布式离线计算—MapReduce—为什么被淘汰了?
原文作者:蔡元楠原文地址:为什么MapReduce会被硅谷一线公司淘汰?time.geekbang.org目录超大规模数据处理的技术发展为什么MapReduce会被取代推荐阅读:每次和来硅谷参观的同行交流的时候,只要谈起数据处理技术,他们总是试图打探MapReduce方面的经验。这一点让我颇感惊讶,因为在硅谷,MapReduced大家谈的已经很少了。今天这一讲,我们就来聊聊为什么MapReduce会被硅谷一线公司淘汰。我们先来沿着时间线看一下超大规模数据处理的重要技术以及它.原创 2021-01-23 21:07:43 · 720 阅读 · 0 评论 -
分布式离线计算—MapReduce—基础介绍
原文作者:哪有天生的学霸,一切都是厚积薄发原文地址:MapReduce介绍目录场景MapReduce产生背景MapReduce功能:总结场景比如有海量的文本文件,如订单,页面点击事件的记录,量特别大,单机版很难搞定,怎么解决海量数据的计算?求和: 1 + 5 +7 + 3 +4 +9 +3 + 5 +6MapReduce产生背景如果让你统计日志里面的出现的某个URL的总次数,让你自己去写个单机版的程序,写个逻辑:无非就是读这个文件一行,然后把那个地方截取出来,.原创 2021-01-23 20:50:41 · 336 阅读 · 0 评论 -
分布式文件系统—HDFS—常见面试题
1、HDFS的写流程客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 NameNode返回是否可以上传。 客户端请求第一个 Block上传到哪几个DataNode服务器上。 NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。 客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。原创 2021-01-24 12:20:45 · 627 阅读 · 0 评论 -
分布式文件系统—HDFS—核心设计
原文作者:jiangw-Tony原文地址:HDFS基础使用1、HDFS心跳机制(heartbeat)Hadoop 是 Master/Slave 结构,Master 中有 NameNode 和 ResourceManager,Slave 中有Datanode 和 NodeManager。 Master 启动的时候会启动一个 IPC(Inter-Process Comunication,进程间通信)server 服务,等待 slave 的链接。 Slave 启动时,会主动链接 master .原创 2021-01-24 00:33:51 · 155 阅读 · 0 评论 -
分布式文件系统—HDFS—IDEA的Hadoop可视化插件BigDataTools
原文作者:???原文地址:idea新工具Big Data Tools安装Big Data Tools插件为了连接hadoop集群,可以在上面操作hdfs,方便好用。1、首先下载Big Data Tools插件在idea右边工具栏点击Big Data Tools。也可以在这里找到。点击OK就可以了...原创 2021-01-24 00:01:07 · 2871 阅读 · 1 评论 -
分布式文件系统—HDFS—Java API操作
原文作者:jiangw-Tony原文地址:HDFS基础使用hdfs 在生产应用中主要是客户端的开发,其核心步骤是从 hdfs 提供的 api 中构造一个 HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS 上的文件。一、环境搭建1、创建一个Maven工程HdfsClientDemo2、在该项目的pom.xml文件中添加以下代码:导入相应的依赖坐标+日志添加<dependencies> <dependency> .原创 2021-01-24 00:19:04 · 1020 阅读 · 0 评论 -
分布式实时计算—Spark—Spark Core
原文作者:bingoabin原文地址:Spark Core目录一、Spark Core1. 主要功能2. Spark Core子框架3. Spark架构4. Spark计算模型二、组件1. 介绍2. RDD3. DataFrame4. DataSet6. RDD和DataSet比较7. DataFrame和DataSet比较8. 应用场景一、Spark CoreApache Spark 是加州大学伯克利分校的 AMP Labs 开发的.原创 2021-01-25 14:45:09 · 765 阅读 · 0 评论 -
分布式文件系统—HDFS—shell命令
常用命令参数介绍:-help:输出这个命令参数手册[hadoop@hadoop02 ~]$ hadoop -help[hadoop@hadoop02 ~]$ hadoop fs -help[hadoop@hadoop02 ~]$ hadoop fs -help ls-ls:显示目录信息hadoop fs -ls hdfs://hadoop02:9000/备注:这些参数中,所有的 hdfs 路径都可以简写成 hadoop fs -ls / 等同上条命令的效果-mkdir:在 h原创 2021-01-23 23:41:21 · 295 阅读 · 0 评论 -
分布式文件系统—HDFS—入门简介
原文作者:Zh_Y_G原文地址:HDFS入门简介目录HDFS是什么?设计目标:安装配置HDFS读写流程图解CheckPointHDFS是什么?易于扩展的分布式文件系统 运行在大量普通廉价机器上提供容错机制 为大量用户提供性能不错的存取服务设计目标:自动快速检测应对硬件错误 流式访问数据,以流的方式访问数据,设计用于数据的批量处理 缺点:不适合存储大量小文件;不适合低延迟的数据访问;不支持多用户写入及任意修改文件 移动计算不移动数据(大数据基本原则,空间.原创 2021-01-23 23:27:08 · 223 阅读 · 0 评论 -
分布式文件系统—HDFS—基本介绍
Hadoop简介Hadoop是Apache开源软件基金会开发的运行于大规模普通服务器上用于大数据存储、计算、分析的一种分布式存储系统和分布式运行框架。其设计思想为使用普通机器(高性能、低成本)、数据冗余(HDFS)、并行化处理(MR)、移动计算(海量数据的情况下移动计算比移动数据更有效),其中思想基础为使用普通机器,只有做到高性能和低成本,使用门槛低,Hadoop项目才会迅速普及,被大家运用。一、HDFS概述1.HDFS概念HDFS(Hadoop分布式文件系统)是Apache Hadoo原创 2021-01-23 21:58:20 · 1129 阅读 · 2 评论 -
分布式资源调度—YARN框架
原文作者:子墨言良原文地址:YARN的架构及原理目录一、YARN产生背景二、什么是YARN三、YARN的基本架构四、YARN的原理五、MapReduce on YARN六、YARN HA(高可用)一、YARN产生背景MapReduce本身存在着一些问题:JobTracker单点故障问题:如果Hadoop集群的JobTracker挂掉,则整个分布式集群都不能使用了。 JobTracker承受的访问压力大,影响系统的扩展性。 不支持MapReduce之外的计..原创 2021-02-12 20:33:38 · 812 阅读 · 1 评论 -
Hadoop—Hadoop生态圈
Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。 Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:根据服务对象和层次分为:数据来源层、数据传输层、数据存储层、资源管理层、数据计算层、任务调度层、业务模型层。接下来对Hadoop生态圈中出现的相关组件做一个简要介绍。 1、HDFS(分布式文件系统)HDFS是整个hadoop体系的基础,负责数据的存储与...原创 2021-02-16 15:26:53 · 816 阅读 · 1 评论 -
Hadoop—常见面试题
Hadoop面试中6个常见的问题及答案准备好面试了吗?呀,需要Hadoop的知识!!?不要慌!这里有一些可能会问到的问题以及你应该给出的答案。Q1.什么是Hadoop?Hadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容:HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即1原创 2021-02-16 15:07:00 · 765 阅读 · 1 评论 -
云计算—智能云
作者:So超人链接:https://www.zhihu.com/question/397932472/answer/1250977172智能云是无处不在的计算,由公共云和人工智能(AI)技术支持,适用于您可以设想的各种智能应用和系统。将智能云视为完整的计算结构,从企业数据中心到云设施,再到一切服务,允许这些资产在需要和适当的情况下智能地互操作并独立工作:“智能云” = 云计算 + 人工智能很多企业其实是想尽快利用人工智能提升生产效率和销售效率的,但对机器学习模型的搭建和代码编辑实在困难重重,制.原创 2021-02-16 16:32:32 · 332 阅读 · 0 评论 -
云计算—云服务商
云服务器全称云计算服务器,主要用于电商等大型网站的建设,其实使用云服务器还是自己买服务器也很好理解,就像租房子还是买房子一样。一、搭建电商服务器的步骤没有云计算服务商之前,搭建网站。。。购买服务器、部署、测试、验证 系统部署好之后还要做优化、提高系统性能 网站用户量增大时,要买更多的服务器,有更多的问题…..有了云计算服务商之后如何搭建网站。。。购买云服务器:在云服务器上搭建电商平台并生成镜像,大概耗时3分钟生成。 购买云数据库:有了电商平台,还需要数据库,5分钟买好,且云平台会自动原创 2020-07-06 15:47:16 · 438 阅读 · 0 评论 -
云计算—基础介绍
目录一、SaaS二、PaaS三、IaaS四、Docker五、OpenStack一、SaaSSaaS是Software-as-a-Service(软件即服务)二、PaaSPaaS是Platform-as-a-Service的缩写,意思是平台即服务。 把服务器平台作为一种服务提供的 商业模式。通过网络进行程序提供的服务称之为SaaS(Software as a Service),而云计算时代相 应的服务器平台或者开发环境作为服务进行提供就成为了PaaS(Pla...原创 2021-02-12 21:28:24 · 538 阅读 · 0 评论 -
ELK技术栈—Kibana
原文作者:少年阿峣_从零单排原文地址:Kibana介绍、安装和使用目录1、介绍2、优势3、安装4、使用5、X-pack插件6、Kibana+X-Pack介绍使用1、介绍Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看存放在Elasticsearch中的数据。Kibana与Elasticsearch的交互方式是各种不同的图表、表格、地图等,直观的展示数据,从而达到高级的数据分析与可视化的...原创 2021-01-29 08:52:13 · 574 阅读 · 0 评论 -
ELK技术栈—Logstash—Input插件
原文作者:归来朝歌原文地址:logstash之Input插件1、stdin标准输入和stdout标准输出Logsrtash含有两个非常重要的基础插件,input与output;首先执行命令:bin/logstash -e 'input { stdin { } } output { stdout { codec => rubydebug } }' 程序启动之后输入:hello logstash2、监控日志文件变化Logstash 使用一个名叫File...原创 2021-01-29 08:53:13 · 482 阅读 · 0 评论 -
ELK技术栈—Logstash—基础介绍
原文作者:原文地址:1、概述官网介绍:Logstash is an open source data collection engine with real-time pipelining capabilities。简单来说logstash就是一根具备实时数据传输能力的管道,负责将数据信息从管道的输入端传输到管道的输出端;与此同时这根管道还可以让你根据自己的需求在中间加上滤网,Logstash提供里很多功能强大的滤网以满足你的各种应用场景。Logstash常用于日志关系系统中做日志采集..原创 2021-01-28 16:18:16 · 503 阅读 · 0 评论 -
ElasticSearch—进阶命令
原文作者:牛麦康纳原文地址:ElasticSearch 命令-(进阶篇)本篇主要学习DSL格式的ElasticSearch查询语法,了解Filter的作用,了解常用的聚合。在开工之前我们需要强调一点,这也是我刚接触ES时进入的一个误区,虽然在某种程度上查询搜索ES与oracle、mysql等数据库有一些相似性,但是根本的区别是ES是个搜索引擎,他除开能过滤出我们想要的记录以外还增加了评分的能力,也就是“智能数据库”。了解这一点,才能方便我们领悟在搜索时什么时候用match,什么时候用filt.原创 2021-01-21 17:47:44 · 160 阅读 · 0 评论 -
ElasticSearch—基础命令
原文作者:牛麦康纳原文地址:ElasticSearch 命令-(基础篇)curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。curl常用参数:-X 指定http的请求方法 有HEAD GET POST PUT DELETE -d 指定要传输的数据 -H 指定http请求头信息ElasticSearch的命令调用是基于http的,提供了丰富的RESTFul API,通过...原创 2021-01-21 16:09:51 · 209 阅读 · 0 评论 -
ElasticSearch—基本概念
原文作者:阮一峰原文地址:全文搜索引擎 Elasticsearch 入门教程全文搜索属于最常见的需求,开源的ElasticSearch(以下简称 Elastic)是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。Elastic 的底层是开源库Lucene。但是,你没法直接用 Lucene,必须自己写代码去调用它的接口。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用...原创 2021-01-21 14:04:20 · 109 阅读 · 0 评论 -
Lucene—底层实现原理
1. Lucene简介和索引原理 该部分从三方面展开:Lucene简介、索引原理、Lucene索引实现。1.1 Lucene简介 Lucene最初由鼎鼎大名Doug Cutting开发,2000年开源,现在也是开源全文检索方案的不二选择,它的特点概述起来就是:全Java实现、开源、高性能、功能完整、易拓展,功能完整体现在对分词的支持、各种查询方式(前缀、模糊、正则等)、打分高亮、列式存储(DocValues)等等。 而且Lucene虽已发展10余年,但仍保持着一个活跃的开发度,以适应着.原创 2021-01-22 15:19:10 · 1584 阅读 · 1 评论 -
Doug Cutting—访谈录
原文作者:noCRUDer原文地址:Doug Cutting (Lucene-Nutch-Hadoop 创始人简介)1。请问你以何为生?你是如何开始从事搜索引擎开发的?我主要在家从事两个与搜索有关的开源项目的开发: Lucene和Nutch.钱主要来自于一些与这些项目相关的一些合同中。目前Yahoo! Labs有一部分赞助在Nutch上。这两个项目还有一些其他的短期合同。2。你能大概给我们讲解一下Nutch吗?以及你将在哪方面运用它?我还是先说一下Lucene吧。Lucene其实是一个提供...原创 2021-01-22 10:08:11 · 138 阅读 · 0 评论 -
Doug Cutting—搜索之父
原文作者:时间的朋友原文地址:Hadoop之父Doug CuttingDoug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为Hadoop,而且还用了黄色小象作为标示Logo,不过,事实上的小象瘦瘦长长,不像Logo上呈现的那么圆胖。“我儿子现在17岁了,所以就把小象给我了,有活动时就带着小象出席,没活动时,小象就丢在家里放袜子的抽屉里。”Doug Cutting大笑着说。图丨Doug Cutting 手拿的黄色小象就是...原创 2021-01-22 10:00:31 · 1189 阅读 · 2 评论