大数据
Antrn
和光同尘,与时舒卷;戢鳞潜翼,思属风云。
展开
-
【笔记】大数据概念与技术概述
1 大数据概念 大数据4V(四个特点): 数据量大(Volume) 大数据摩尔定律:人类社会产生的数据一致以每年50%的速度增长。 数据类型多(Variety)、 结构化和非结构化的数据 处理速度快(Velocity) 数据处理和分析的速度通常要达到秒级响应。 价值密度低(Value) 很多有价值的信息都是分散在海量数据中的。 2 大数据关键技术 数据采集与预处理 ...原创 2019-09-29 09:54:51 · 1073 阅读 · 0 评论 -
Scala编程(一)
1.1 编程范式 编程范式是指计算机编程的基本风格或典型范式,常见的编程范式主要包括命令式编程和函数式编程。面向对象编程就是命令式编程,比如C++、Java。 函数式编程又称泛函编程,它将计算机的计算视为数学上的函数计算,并且避免状态以及可变数据。函数编程语言最重要的基础是λ\lambdaλ演算,它的函数可以接受函数当做输入和输出。主要有Haskell、Erlang、Lisp。 215年以来,计算...原创 2019-09-29 21:39:31 · 193 阅读 · 0 评论 -
【笔记】HDFS
HDFS是基于流式数据访问模式,为处理超大文件(PB级别)的需求而设计的。流式数据访问模式的关键是流式数据,所谓流式数据就是将数据序列化为字节流,如同将冰融化成水,类似于Java中的对象的序列化接口。 HDFS中存放的一定是流式数据,是可序列化和反序列化的数据。HDFS是不支持存储和访问费序列化数据的。可以将超大文件序列化为字节的序列或者字节数组来存储,这样不会破坏原来的文件的结构和内容。为了把超...原创 2019-10-05 11:05:26 · 473 阅读 · 0 评论 -
【笔记】HDFS的运行机制及Zookeeper、Hadoop集群配置
HDFS就是运行在许多机器节点组成的集群上的分布式文件系统程序,用户访问HDFS就是访问运行在这些众多节点上的分布式文件程序,通过Client命令请求服务端分布式文件系统恒旭,这个过程称为RPC(Remote Procedure Call,RPC),其协议叫做远程过程调用协议。 RPC 一个RPC请求从发送到获取处理结果所经历的步骤如下: ① 客户端程序以本地方式调用系统产生的Client Stu...原创 2019-10-06 22:04:44 · 410 阅读 · 0 评论