大数据
One-Direction
这个作者很懒,什么都没留下…
展开
-
CAP原理详解
一、CAP原理介绍先简单介绍一下CAP原理是什么:C:Consistency即一致性,访问所有的节点得到的数据应该是一样的。注意,这里的一致性指的是强一致性,也就是数据更新完,访问任何节点看到的数据完全一致,要和弱一致性,最终一致性区分开来。A:Availability即可用性,所有的节点都保持高可用性。注意,这里的高可用还包括不能出现延迟,比如如果节点B由于等待数据同步而阻塞请求,那么...转载 2020-05-02 00:42:19 · 452 阅读 · 1 评论 -
HDFS体系结构,优缺点,可靠性和文件读写
产生背景以文件为基本存储单位的缺点文件大小不同,难以实现负载均衡。处理一个文件时,只能利用一个节点资源,无法动用集群。HFDS的定义源自于Google的GFS论文发表于2003年10月HDFS是GFS克隆版Hadoop Distributed File System易于扩展的分布式文件系统运行在大量普通廉价机器上,提供容错机制为大量用户提供性能不错的文件存取服务体系...转载 2020-05-01 18:31:18 · 777 阅读 · 0 评论 -
HDFS默认块的大小和份数
HDFS默认Block Size 64MB,block默认保存3份。HDFS被设计成支持大文件,适用HDFS的是那些需要处理大规模的数据集的应用。这些应用都是只写入数据一次,但却读取一次或多次,并且读取速度应能满足流式读取的需要。HDFS支持文件的“一次写入多次读取”语义。一个大文件会被拆分成一个个的块(block),然后存储于不同的DataNode上。如果一个文件小于一个block的大小,那么...转载 2020-04-29 21:25:24 · 7701 阅读 · 0 评论 -
聚类、K-Means、例子、细节
聚类今天说聚类,但是必须要先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的...转载 2020-04-12 23:51:34 · 443 阅读 · 0 评论 -
什么是流式计算?
一、流式计算的背景在日常生活中,我们通常会先把数据存储在一张表中,然后再进行加工、分析,这里就涉及到一个时效性的问题。如果我们处理以年、月为单位的级别的数据,那么多数据的实时性要求并不高;但如果我们处理的是以天、小时,甚至分钟为单位的数据,那么对数据的时效性要求就比较高。在第二种场景下,如果我们仍旧采用传统的数据处理方式,统一收集数据,存储到数据库中,之后在进行分析,就可能无法满足时效性的要求...转载 2020-04-02 20:53:30 · 1884 阅读 · 0 评论 -
Spark与Hadoop MapReduce相比,有哪些优点你知道吗?
一提到大数据处理,相信很多人第一时间想到的是 Hadoop MapReduce。没错,Hadoop MapReduce 为大数据处理技术奠定了基础。近年来,随着 Spark 的发展,越来越多的声音提到了 Spark。而Spark相比Hadoop MapReduce有哪些优势?SparkSpark与Hadoop MapReduce在业界有两种说法 :一是 Spark 将代替 Hadoo...转载 2020-04-01 23:55:44 · 2404 阅读 · 0 评论 -
np.histogram()直方图分布
np.histogram() 默认地使用10个相同大小的区间(箱),然后返回一个元组(频数,分箱的边界),如上所示。要注意的是:这个边界的数量是要比分箱数 多一个的,可以简单通过下面代码证实。>>> hist.size, bin_edges.size(10, 11)以下是其内部的具体实现>>> # 取a的最小值和最大值>>> ...原创 2019-04-21 20:15:00 · 29124 阅读 · 0 评论 -
卷积
从数学上讲,卷积就是一种运算。某种运算,能被定义出来,至少有以下特征:首先是抽象的、符号化的其次,在生活、科研中,有着广泛的作用比如加法:a+b,是抽象的,本身只是一个数学符号在现实中,有非常多的意义,比如增加、合成、旋转等等卷积,是我们学习高等数学之后,新接触的一种运算,因为涉及到积分、级数,所以看起来觉得很复杂。卷积的定义我们称 (f*g)(n) 为 f,g 的卷积...转载 2019-04-07 16:46:04 · 767 阅读 · 0 评论 -
数字图形处理基础
数字图像处理基础知识WEBP格式WebP格式,由谷歌于2010年推出的新一代图片格式,在压缩方面比当前JPEG格式更优越。谷歌(google)开发的一种旨在加快图片加载速度的图片格式。图片压缩体积大约只有JPEG的2/3,并能节省大量的服务器宽带资源和数据空间。Facebook Ebay等知名网站已经开始测试并使用WebP格式。WebP既支持有损压缩也支持无损压缩。相较编码JPEG文件,编码同...原创 2019-04-07 16:20:46 · 194 阅读 · 0 评论 -
Hadoop知识点
大数据平台: HadoopHadoop是Apache公司开发的一款商用大数据软件。Hadoop是一个能够对大量数据进行分布式处理的软件框架,能够处理 PB 级数据。大数据技术方案为了简化并行分布式计算,采用( )软件模块进行处理。 A.Java B.Map C.Reduce D.SQLHadoop生态系统的优势包含() A.高扩展 B.低成本 C....原创 2019-06-30 19:00:42 · 1914 阅读 · 1 评论 -
HDFS
Hadoop存储系统HDFS的体系结构的设计目标包含() A. 自动检测处理硬件错误 B.流式访问数据 C. 转移计算,不移动数据位置 D. 简单数据一致性模型Hadoop存储系统HDFS的文件是分块存储,每个文件块默认大小为64MB(1.0),128MB(2.0)。HDFS中的NameNode节点用于存放元数据,数据内容包含()。 A.文件与数据块的映射表 ...原创 2019-06-30 18:53:17 · 1514 阅读 · 0 评论 -
HDFS的JAVA API
文章目录HDFS常见操作代码基本结构HDFS文件操作上传文件到集群下载文件到Linux文件系统读取文件HDFS的目录操作重命名创建目录判断文件是否存在删除文件查看HDFS基本信息HDFS常见操作代码基本结构Configuration:Hadoop配置信息FileSystem:文件系统hdfs.listStatus:文件状态,通过它调用文件系统HDFS文件操作上传文件到集群...原创 2019-06-30 15:59:51 · 268 阅读 · 0 评论 -
Hadoop的Shell基本操作
Hadoop简介Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,高扩展,高效性,高容错等优点。Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。此外,Hado...原创 2019-06-30 10:25:15 · 363 阅读 · 0 评论 -
Hadoop之—— WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...
注:升级glib库解决问题请参加链接:https://blog.csdn.net/l1028386804/article/details/88420473配置完hadoop启动的时候出现如下警告信息:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builti...转载 2019-06-29 22:32:18 · 240 阅读 · 0 评论