大数据
文章平均质量分 80
Listron
打造成金子一般的我,实现我的发光梦
十年后再看自己的博客,看那时又有了什么新技术。
展开
-
Hadoop的SecondaryNameNode和HA(高可用)区别
在Hadoop2.0之前,NameNode只有一个,存在单点问题(虽然Hadoop1.0有SecondaryNameNode,CheckPointNode,BackupNode这些,但是单点问题依然存在),在hadoop2.0引入了HA机制。Hadoop2.0的HA机制官方介绍了有2种方式,一种是NFS(Network File System)方式,另外一种是QJM(Quorum Journal Manager)方式。一、SecondaryNameNode介绍Secondary NameNode名字转载 2021-10-19 11:15:10 · 913 阅读 · 0 评论 -
知识图谱的重要性---大师就是大师
人工智能要在行业中得到应用的先决条件,首先要对行业建立起认知,只有理解了行业和场景,才能真正智能化。说白了,就是要建立行业知识图谱,才能给行业AI方案。说到人工智能技术,人们首先会联想到深度学习、机器学习技术;谈到人工智能应用,人们很可能会马上想起语音助理、自动驾驶等等,不过,在AI World 2017世界人工智能大会上,百度副总裁、AI技术平台体系(AIG)总负责人王海峰却没有讲这些,这次他聊的是知识图谱。虽然你可能说不出知识图谱的具体定义,但其实每天都在使用它。当你在百度搜索时,搜索结果右侧的转载 2021-09-23 11:05:09 · 912 阅读 · 0 评论 -
数据库与数据仓库区别
在具体学习数据仓库之前先看一下数据中心的整体构架以及数据流向。 DB 是现有的数据来源,可以为mysql、SQLserver、文件日志等,为数据仓库提供数据来源的一般存在于现有的业务系统之中。 ETL 是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程: Extract,数据抽取,也就是把数据从数据源读出来。 Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清转载 2021-09-18 16:47:31 · 3785 阅读 · 0 评论 -
hadoop2x从安装到测试伪分布式集群的wordcount
标题比较长,主要完成的功能,1:安装hadoop2.10.12:搭建伪分布式集群3:测试自带的wordcount遇到很多坑,需要自己填。1:从hadoop官网下载tar的hadoop2.10.1安装包,之后解压;这里我用的自己的阿里云服务器(这里有一些坑可能你遇不到,因为这个事阿里云和本地关系造成的)2:修改各种文件,可以参考https://blog.csdn.net/xiaozhuangyumaotao/article/details/106010114不过里面原创 2021-09-13 15:32:58 · 112 阅读 · 0 评论 -
Spark与Flink对比
Spark缺点无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看作是批处理的一种特殊形式,每次接收到一个时间间隔的数据才会去处理,所以天生很难在实时性上有所提升。虽然在 Spark2.3中提出了连续处理模型( Continuous Processing Model)转载 2021-08-30 11:26:10 · 265 阅读 · 0 评论 -
并行计算与分布式计算
并行计算、分布式计算以及网格计算和云计算都是属于高性能计算(HPC)的范畴,主要目的在于对大数据的分析与处理,但它们却存在很多差异。我们需要了解两者的原理、特点和运用的场合,对云计算的了解大有裨益。之所以将两种计算技术放在一起,是因为这两种计算具有共同的特点,都是运用并行来获得更高性能计算,把大任务分为N个小任务。但两者还是有区别的,关于两者的区别在后面有介绍。并行计算1、并行计算概念并行计算(Parallel Computing)又称平行计算是指一种能够让多条指令同时进行.转载 2021-08-24 14:41:02 · 9988 阅读 · 1 评论 -
hadoop的初步认识
Hadooop 可以称作一个大数据管理和分析平台。Hadoop 是一个开源的大数据分析软件,或者说编程模式。它是通过分布式的方式处理大数据的,因为开源的原因现在很多企业都在运用 hadoop 的技术来解决一些大数据的问题,在数据仓库方面 hadoop 是非常强大的。但在数据及时以及实时的分析展现层面上,hadoop 也有着明显的不足。但 Hadoop 并不等于大数据,它只是一个成功的分布式系统,用于处理离线数据。除了 Hadoop 之外,Storm 和 Apache Spark 也是优秀的大数.原创 2021-07-02 17:19:51 · 230 阅读 · 1 评论