大数据
EVAO
这个作者很懒,什么都没留下…
展开
-
大数据系列(1)——VMware_workstation安装虚拟机
1. 安装虚拟机软件使用虚拟化技术VMware_workstation_full_12.5.0.11529软件可在下方百度云盘获得链接:https://pan.baidu.com/s/11msIzoDFju6P8Bm8Kls_Tw提取码:xhwa一直下一步安装即可,安装完成之后桌面出现快捷方式2.LinuxLinux的安装准备工作下载centeros6.5_x64_dvd...原创 2019-06-14 17:19:33 · 275 阅读 · 0 评论 -
大数据系列——Storm安装和API
1. 实时计算有别于传统的离线批处理操作(对很多数据的集合进行的操作)实时处理,说白就是针对一条一条的数据/记录进行操作实时计算计算的是无界数据2. 有界数据和无界数据2.1 有界数据离线计算面临的操作数据都是有界限的,无论是1G、1T、1P、1EB、1NB数据的有界必然会导致计算的有界2.2 无界数据实时计算面临的操作数据是源源不断的向水流一样,是没有界限的数据的无...原创 2019-09-12 10:28:29 · 123 阅读 · 0 评论 -
大数据系列——shell的简单语法
1. Linux 简介Linux内核最初只是由芬兰人李纳斯·托瓦兹(Linus Torvalds)在赫尔辛基大学上学时出于个人爱好而编写的Linux是一套免费使用和自由传播的类Unix操作系统Linux能运行主要的UNIX工具软件、应用程序和网络协议2. Linux的发行版Linux的发行版说简单点就是将Linux内核与应用软件做一个打包Ubuntu(图形化接口,个人用户操作比较...原创 2019-09-12 10:28:37 · 145 阅读 · 0 评论 -
大数据系列——Redis学习笔记
1. Redis的简介Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理它支持字符串、哈希表、列表、集合、有序集合,位图,hyperloglogs等数据类型内置复制、Lua脚本、LRU收回、事务以及不同级别磁盘持久化功能,同时通过Redis Sentinel提供高可用,通过Redis Cluster提供自动分区。简言之,Redis是一种面向...原创 2019-09-12 10:12:17 · 215 阅读 · 0 评论 -
大数据系列——kafka学习笔记
1. 大数据领域数据类型1.1 有界数据 **一般批处理(一个文件 或者一批文件),不管文件多大,都是可以度量 ** mapreduce hive sparkcore sparksql1.2 无界数据 源源不断的流水一样 (流数据) Storm SparkStreaming2. 消息队列(Message Queue)消息 Message网络中的两台计算机或者...原创 2019-09-12 10:11:38 · 178 阅读 · 0 评论 -
大数据系列——Flume入门和认识
1. Flume简介Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统支持在日志系统中定制各类数据发送方,用于收集数据Flume提供对数据进行简单处理,并写到各种数据接收方2. Flume OG 与Flume NGFlume OG:Flume original generation,即Flume0.9x版本Flume NG:Flume next generati...原创 2019-09-12 10:10:34 · 192 阅读 · 0 评论 -
大数据系列——Sqoop学习笔记
1. Sqoop简介Apache Sqoop是一种专门为hadoop和比如关系型数据库等结构化数据库之间的高效数据转换一种工具。数据的搬运工Sqoop在大多数自动化数据转换的过程中,依托于数据库相关的Schema描述信息,转换的过程是使用MapReduce来进行的Sqoop目前有两个版本,完全不兼容,Sqoop和Sqoop2.可以通过版本号来进行简单的区分,1.4.x为sqoop或sqo...原创 2019-09-12 10:09:53 · 211 阅读 · 0 评论 -
大数据系列——Hbase学习笔记
1. Hbase简介Hadoop-Database根据’bigtable’论文实现的分布式 可扩展的大数据存储技术随机访问 实时读写海量数据存储数 '十亿行 百万列’的数据高可靠性、高性能、面向列、可伸缩的分布式存储系统hbase的底层存储基于hdfs利用Zookeeper作为协调工具2. Hbase是什么?分布式开源数据库,基于hadoop分布式文件系统(HDFS)...原创 2019-09-12 10:09:22 · 329 阅读 · 0 评论 -
大数据系列——Spark学习笔记Spark Streaming
1. Spark StreamingSpark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理Spark Streaing中有一个最基本的抽象叫DStream(代理),本质上就是一系列连续的RDD,DStream其实就是对RDD的封装DStream可以认为是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不...原创 2019-09-12 10:08:48 · 315 阅读 · 0 评论 -
大数据系列——Spark学习笔记之 Spark SQL
1. Spark SQL是什么?处理结构化数据的一个spark的模块它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用2. Spark SQL的特点多语言的接口支持(java python scala)统一的数据访问完全兼容hive支持标准的连接3. 为什么学习SparkSQL?我们已经学习了Hive,它是将Hive SQL转换成MapRed...原创 2019-09-12 10:08:15 · 146 阅读 · 0 评论 -
大数据系列——Spark学习笔记之Spark中的RDD
1. Spark中的RDDResilient Distributed Datasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2. RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的,但是在内存资源不足时,Spark会自动将RDD数据写入...原创 2019-09-12 10:07:41 · 279 阅读 · 0 评论 -
大数据系列——Spark学习笔记之初识Spark
1. Spark简介2009年,Spark诞生于伯克利大学的AMPLab实验室。最出Spark只是一个实验性的项目,代码量非常少,属于轻量级的框架。2010年,伯克利大学正式开源了Spark项目。2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期。第三方开发者贡献了大量的代码,活跃度非常高2014年2月,Spark以飞快的速度称为了Apache的顶级项目,同时大数...原创 2019-09-12 10:07:06 · 283 阅读 · 0 评论 -
大数据系列(6)——ZooKeeper
1. ZooKeeper开源的分布式的协调服务,是Google的Chubby一个开源的实现,它是一个为分布式应用提供一致性服务的软件2. ZooKeeper提供的功能配置维护域名服务分布式锁组服务3. ZooKeeper的特点简单ZooKeeper的核心是一个精简的文件系统 ,它支持一些简单的操作和一些抽象操作丰富ZooKeeper的操作是很丰富的,可实现一...原创 2019-09-12 10:06:26 · 282 阅读 · 0 评论 -
大数据系列(3)——linux的hadoop安装
1. hadoop的安装类型1.1 hadoop单机版1.2 hadoop伪分布式版1.3 hadoop完全分布式版2. hadoop单机版的安装(准备工作)2.1 关闭selinuxvim /etc/selinux/config SELINUX=disabled2.2 关闭图形接口vim /etc/inittab id:3:initdefault:2.3 关闭防火墙s...原创 2019-06-14 17:27:02 · 162 阅读 · 0 评论 -
大数据系列(2)——linux安装jdk
教程我会尽量写的详细,但是下面内容有看不懂的可以给我发邮件:736812983@qq.com,也可以加QQ。1. 安装Xmanager链接:https://pan.baidu.com/s/1NTYXOXdMCxDUaaTMMtz8PA提取码:ysmj2. 安装Xshell在安装好的Xmanagemer里找到Xshell打开Xshell,配置连接,连接上之后就能远程操作虚拟机3. ...原创 2019-06-14 17:24:33 · 265 阅读 · 0 评论 -
大数据系列—— Scala的初步认识和语法入门
1. Scala简介Scala是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性Scala运行在Java虚拟机上,并兼容现有的Java程序 (Scala是类Jvm言)Scala源代码被编译成Java字节码,所以它可以运行于JVM之上,并可以调用现有的Java类库Spark和flink等大数据框架都是使用Scala开发的2. Sc...原创 2019-09-12 10:57:40 · 572 阅读 · 0 评论