![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 90
大数据学习做的笔记,以及自己对大数据的学习过程中的心得体会。
内容主要包括大数据的底层架构原理,环境搭建,以及一些小案例。
乱画十八笔
君子疾没世而在焉
展开
-
MyBatis 深入浅出
一、MyBatis 基础1、什么是MyBatismybatis是一个持久层框架,用java编写的。它封装了jdbc操作的很多细节,使开发者只需要关注sql语句本身,而无需关注注册驱动,创建连接等繁杂过程。它使用了ORM思想实现了结果集的封装。ORM: Object Relational Mappging 对象关系映射。简单的说:就是把数据库表和实体类及实体类的属性对应起来。让我们可以操作实体类就实现操作数据库表。2、MyBatis的下载使用确保安装好MySQL,并且MySQL能够正常连接。MyB原创 2020-12-23 16:04:35 · 278 阅读 · 3 评论 -
大数据计算引擎:Flink基础教程
一、Flink基础1、什么是Flink?数据模型、体系架构、生态圈官方解释:Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computation原创 2020-11-23 20:24:05 · 178 阅读 · 0 评论 -
Docker:基础篇
摘要docker 主要有两个部分进行组成,一个是镜像(第二节),一个容器(第三节)。下面将介绍,镜像的常用操作与容器的常用的操作。有两个问题:1、容器之间的数据通信(第四节)。2、容器之间的数据共享(第五节)。这两个问题在下面也将展开介绍。一、什么是Docker及其体系架构1、什么是Docker?体系架构(1)Docker是一个容器的引擎(虚拟机)(2)让开发人员可以打包自己的应用程序(依赖:包、资源)(3)虚拟化(4)组成:Docker Client客户端:Docker命令Docke原创 2020-11-19 22:48:45 · 212 阅读 · 2 评论 -
消息系统:Kafka
一、Kafka基础1、什么是消息系统?常见的消息系统复习:(1)消息:字符串、对象(序列化)(2)消息类型:queue:队列,点对点topic:主题,群发----Kafka只支持(3)同步消息系统:等待对方的回答,例如:ATM机异步消息系统:不需要等待对方的回答,例如:微信Kafka都支持2、Kafka的体系架构、术语(概念)producer生产者、consumer消费者、consumer group 消费者组。Topic主题:分区Partition、冗余replicas、段Se原创 2020-11-10 17:17:41 · 546 阅读 · 0 评论 -
流式计算引擎:Spark Streaming
一、什么是Spark Streaming?特点二、演示DemoNetworkWordCount(会有一个很大的坑:保证CPU的核数>=2)三、开发自己的NetworkWordCount四、核心数据模型DStream(离散流),就是一个RDD五、输入:接收器------> 指定数据源六、接收Kafka的数据(放到Kafka中介绍)...原创 2020-11-08 13:10:14 · 333 阅读 · 0 评论 -
Zookeeper
1、解压:tar -zxvf zookeeper包名 解压到 /usr/local/zookeeper2、设置环境变量 vi ~/.bash_profile (~/表示用户目录 ./ 当前目录 …/ 上级目录)ZOOKEEPER_HOME=/usr/local/zookeeper/zookeeper-3.4.10export ZOOKEEPER_HOMEPATH=$ZOOKEEPER_HOME/bin:$PATHexport PATH#这一行不加可能会拒绝运行export原创 2020-10-01 15:27:52 · 243 阅读 · 0 评论 -
大数据Hadoop的整体理解
一、Hadoop的整体理解大数据一直是在讨论两个问题:数据存储与数据计算。如何将得到的数据存储起来与如何对得到的数据进行计算输出结果以前实现大数据的做法(存贮)我们首先需要一个数据源,可以是日志也可以是数据库等等。然后我们对数据进行抽取、转化、加载三个过程,将得到的数据存贮在数据库中。(计算)那么接下来,我们可以使用JDBC或sql语句,对这些数据进行筛选、计算等操作。我们这时会得到一个结果,这个结果可以存储在mysql数据库中,当然,其他的数据库也是可以的。Hadoop的实现框架原理是和上面原创 2020-07-31 23:08:41 · 265 阅读 · 0 评论 -
Hadoop 3.0环境搭建-HDFS&&MapReduce
Hadoop目录结构准备工作:1、安装Linux、关闭防火墙、配置主机名、安装JDK2、解压 tar -zxvf 包名3、设置环境变量:vi ~/.bash_profileHADOOP_HOME=/root/training/hadoop-3.1.2export HADOOP_HOMEPATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport PATH #注意:伪分布模式和全分布模式,需要设置以下环境变量(运行的用户):export原创 2020-08-14 23:01:29 · 225 阅读 · 0 评论 -
Apache Hadoop的体系结构(每一部分的职责)
一、Hdfs在伪分布中有下面三个目录在全分布中,data目录实在DataNode服务器上面,name和namesecondary在NameNode服务器上面其中,原信息和日志就在name/current下面1、主节点:名称节点NameNode职责:1. 接收客户端的请求,并作出相应的处理2. 管理和维护HDFS:edits日志、fsimage文件位置:参数hadoop.tmp.dir: $HADOOP_HOME/tmp/dfs/name/currentedits日志:edits_inp原创 2020-08-23 19:22:06 · 177 阅读 · 0 评论 -
HDFS:分布式文件系统
HDFS在整个Hadoop生态圈中的作用:1、HDFS分布式文件系统,位于整个Hadoop的最底层,也是大数据的核心。2、Hbase是在HDfs基础之上的框架,是列式存储,支持NOSQL语句。在这里可以把HDFS看做计算机一块大硬盘,HBASE是不是很像Redis。3、Yarn可以和HBASE进行集成,也可以与HDFS进行集成,本质就是一个“发动机”,进行数据的处理计算。4、Hive与pig数据分析引擎,与Yarn进行集成,底层处理数据采用的是MapReduce。5、sqoop与flume 数据原创 2020-08-24 21:12:27 · 251 阅读 · 0 评论 -
MapReduce
原理yarn的调度过程看下面这篇博客https://blog.csdn.net/qq_45335413/article/details/108186427MapReduce的编程模型,看下面这篇博客https://blog.csdn.net/qq_45335413/article/details/107722220一、开发自己的WordCount程序1、导入下面的jar包$HADOOP_HOME/share/hadoop/common/*.jar$HADOOP_HOME/share/hado原创 2020-09-02 21:24:49 · 105 阅读 · 0 评论 -
NoSQL数据库:HBase
一、常见的NoSQL数据库?什么是HBase?1、常见的NoSQL数据库Redis:基于内存,提供RDB、AOF持久化;从3.x开始,提供Redis Cluster(分布式存储,核心Hash分区)HBase:基于HDFS之上的NoSQL数据库;主从架构(HMaster、RegionServer),单点故障列式存储HBase HDFS表 目录列族 目录数据 文件(HFile:默认大小:128M)Cassandra:列式存储、不需要HDFS;去中心化架原创 2020-09-17 22:00:57 · 214 阅读 · 0 评论 -
Flume
一、什么是FlumeFlume是一种分布式的、可靠的和可用的服务,用于有效地收集、聚合和移动大量日志数据。它有一个简单灵活的基于流数据流的体系结构。它具有健壮性和容错性,具有可调可靠性机制和多种故障转移和恢复机制。它使用了一个简单的可扩展数据模型,允许在线分析应用程序。二、Flume的体系架构Flume有三个主要的组件source、channel、sink。以及每一个作用上图都有说明。最重要的是配置一个agent,也就是说,使用Flume就是怎么配置agent,实现自己的需求。三、安装Flume原创 2020-10-01 23:26:06 · 138 阅读 · 0 评论 -
大数据分析引擎:Hive
一、什么是Hive?通俗的说,hive就是一个MapReduce的翻译器,所以不用搭建一个集群。相对于HBase的主从架构,具有很多从节点regionServer,这样就把整个数据,分别分散到每个regionServer,进而实现整个大数据的查找,提高性能。而hive就是把sql语句翻译成MapReduce,然后再运行在yarn容器之上。1、Hive基于HDFS之上的数据仓库HiveHDFS表目录数据文件分区目录桶文件2、Hive是一个翻译器,默认:原创 2020-10-05 15:54:23 · 251 阅读 · 0 评论 -
数据分析引擎Presto
一、什么是presto及体系架构Presto与hbase的架构特别相似。都是主从架构思想。由于我们使用的hive只是把sql语句翻译成MapReduce,然后再交给yarn去执行,我们都知道,yarn执行过程中,会产生数据落地,进而影响效率。因此我们通常用presto与hive做一个集成,presto是完全内存计算,presto集成hive就是去hive中元数据,当presto拿到hive的所有元数据后,就是拿到所有的表在hdfs的存储位置,进而基于内存运算的数据源就是在hdfs上。Presto查询引原创 2020-10-06 20:49:54 · 315 阅读 · 1 评论 -
Sqoop
Sqoop是一个MapReduce的程序原创 2020-10-09 08:40:29 · 84 阅读 · 1 评论 -
NoSQL数据库之:Redis
一、什么是Redis?Redis是基于内存的NoSQL数据库。前身是memcached,但是memcached不支持持久化,没有丰富的数据类型。Redis存放的数据是key-values键值对。二、安装Redis、命令脚本1、解压tar -zxvf redis-3.0.5.tar.gz 注意:这里下载是源码。2、安装//预编译,需要gcc环境。apt-get install gccapt-get install makemake//PREFIX指定安装目录make PREFIX=/原创 2020-10-09 22:06:33 · 110 阅读 · 0 评论 -
Storm流式计算
一、storm理解下面以水厂加工的例子进行讲解。人们要想喝到自来水。1、是不是需要水泵在水源地进行抽水2、将抽到的水放到蓄水池里作进一步的处理。第一个蓄水池的实现的功能就是做沉淀。第二个蓄水池的功能就是过滤。第三个蓄水池的功能就是消毒。之后产生蓄水。3、要想上面的过程完美的进行,是不是需要一个中控室,来告诉这些水泵和蓄水池应该干什么,来进行调度。实际上storm的框架与生产自来水及其相似。下面我们做一个对应的关系。storm框架主要分为主从节点,主节点为nimbus,从节点为superviso原创 2020-10-13 23:29:12 · 420 阅读 · 1 评论 -
大数据计算引擎Spark Core
scala语言自行学习一、什么是Spark?特点二、Spark的体系架构:主从架构三、搭建Spark的环境四、执行Spark的任务:客户端工具原创 2020-10-29 16:00:12 · 179 阅读 · 0 评论 -
数据分析引擎:Spark SQL
一、什么是Spark SQL?特点、数据模型DataFrame1、是Spark的一个模块,用于处理结构化数据spark Sql 就是把spark-core中rdd的数据进行结构化,使之能用sql语句的方式进行处理这些数据。2、特点容易集成,已经被集成到了Spark中提供统一的数据访问方式:Oracle、MySQL、JSON、CSV等等 —> 数据模型DataFrame兼容Hive:在实际工作中,用得很少支持标准的JDBC、ODBC3、数据模型DataFrame ----->原创 2020-10-30 16:31:41 · 153 阅读 · 0 评论