![](https://img-blog.csdnimg.cn/20190929095712646.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
Antrn
和光同尘,与时舒卷;戢鳞潜翼,思属风云。
展开
-
【笔记】大数据概念与技术概述
1 大数据概念大数据4V(四个特点):数据量大(Volume)大数据摩尔定律:人类社会产生的数据一致以每年50%的速度增长。数据类型多(Variety)、结构化和非结构化的数据处理速度快(Velocity)数据处理和分析的速度通常要达到秒级响应。价值密度低(Value)很多有价值的信息都是分散在海量数据中的。2 大数据关键技术数据采集与预处理...原创 2019-09-29 09:54:51 · 1065 阅读 · 0 评论 -
Scala编程(一)
1.1 编程范式编程范式是指计算机编程的基本风格或典型范式,常见的编程范式主要包括命令式编程和函数式编程。面向对象编程就是命令式编程,比如C++、Java。函数式编程又称泛函编程,它将计算机的计算视为数学上的函数计算,并且避免状态以及可变数据。函数编程语言最重要的基础是λ\lambdaλ演算,它的函数可以接受函数当做输入和输出。主要有Haskell、Erlang、Lisp。215年以来,计算...原创 2019-09-29 21:39:31 · 184 阅读 · 0 评论 -
【笔记】HDFS
HDFS是基于流式数据访问模式,为处理超大文件(PB级别)的需求而设计的。流式数据访问模式的关键是流式数据,所谓流式数据就是将数据序列化为字节流,如同将冰融化成水,类似于Java中的对象的序列化接口。HDFS中存放的一定是流式数据,是可序列化和反序列化的数据。HDFS是不支持存储和访问费序列化数据的。可以将超大文件序列化为字节的序列或者字节数组来存储,这样不会破坏原来的文件的结构和内容。为了把超...原创 2019-10-05 11:05:26 · 463 阅读 · 0 评论 -
【笔记】HDFS的运行机制及Zookeeper、Hadoop集群配置
HDFS就是运行在许多机器节点组成的集群上的分布式文件系统程序,用户访问HDFS就是访问运行在这些众多节点上的分布式文件程序,通过Client命令请求服务端分布式文件系统恒旭,这个过程称为RPC(Remote Procedure Call,RPC),其协议叫做远程过程调用协议。RPC一个RPC请求从发送到获取处理结果所经历的步骤如下:① 客户端程序以本地方式调用系统产生的Client Stu...原创 2019-10-06 22:04:44 · 400 阅读 · 0 评论