大数据
蓦然_
大数据开发,公众号:旧时光大数据
展开
-
大数据概论
目录一、大数据概论 1、大数据概念2、大数据特点3、大数据应用场景4、大数据发展前景5、企业数据部的业务流程分析6、大数据部门组织结构二、从Hadoop框架讨论大数据生态1、Hadoop是什么2、Hadoop发展历史3、Hadoop三大发行版本4、Hadoop优势5、Hadoop组成(重点)5.1 HDFS架构概述5.2 YARN架...原创 2019-10-25 15:13:00 · 3982 阅读 · 0 评论 -
零基础大数据学习指南(整套学习资料链接+项目)
目录一、编程语言部分1、JavaSE2、Scala二、大数据阶段1、Linux(基本操作)2、Hadoop(重点中的重点)3、Zookeeper4、Hive(重点)5、Flume6、Kafka(重点)7、HBase(重点)8、Spark(重点中的重点)9、Flink(重点中的重点)三、项目阶段四、机器学习五、书籍后续也会继续更新~...原创 2019-11-30 14:24:12 · 2240 阅读 · 1 评论 -
Spark Streaming的DStream转换
目录DStream转换1、无状态转换2、有状态转换2-1、updateStateByKey2-2、Window OperationsDStream转换 DStream上的原语与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:...原创 2019-06-03 23:49:52 · 440 阅读 · 0 评论 -
Spark Streaming介绍及概括
目录一、Spark Streaming概述1、概述2、什么是DStream3、Spark与Storm对比二、Spark Streaming整体架构三、初始化Spark Streaming1、Spark Streaming入口四、运行Spark Streaming1、IDEA编写WordCount代码五、Spark Streaming的输入1、基本数据源...原创 2019-06-03 23:49:08 · 742 阅读 · 0 评论 -
Hive——Hive数据类型
1、基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 ...原创 2019-06-15 17:54:09 · 221 阅读 · 0 评论 -
Hive——DDL数据定义
1、创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。hive > create database db_hive; 2)避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive> create database db_hive;FAILED: Execut...原创 2019-06-15 18:27:57 · 162 阅读 · 0 评论 -
Hive——DML数据操作
1、数据导入1.1 向表中装载数据(Load)1.语法hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; (1)load data:表示加载数据 (2)local:表示从本...原创 2019-06-15 18:49:23 · 225 阅读 · 0 评论 -
Hive——Hive查询
查询语句语法:[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[W...原创 2019-06-15 19:37:46 · 593 阅读 · 0 评论 -
Hive——hive安装
1、Hive安装地址 1.Hive官网地址 http://hive.apache.org/ 2.文档查看地址 https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3.github地址 https://github.com/apache/hive2、Hive安装...原创 2019-06-14 20:51:40 · 274 阅读 · 0 评论 -
Hive——基本概念
1、什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上2、Hive的优缺点...原创 2019-06-14 20:12:41 · 468 阅读 · 0 评论 -
Permission denied: user=dr.who, access=READ_EXECUTE, inode="/usr":root:supergroup:drwx------
通过web UI查看hive创建的数据库时出现以下错误:Permission denied: user=dr.who, access=READ_EXECUTE, inode="/usr":root:supergroup:drwx------出错的原因:/usr权限不够,导致无法访问解决办法:进入hadoop目录下的bin目录,输入一下命令之后Enter[root@hadoo...原创 2019-06-14 12:07:56 · 1388 阅读 · 0 评论 -
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
在运行Spark程序写出文件(savaAsTextFile)的时候,遇到了这个错误:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.也有可能是下面这种错误:java.lang.UnsatisfiedLinkError: org.apache.h...原创 2019-04-03 21:16:14 · 390 阅读 · 0 评论 -
HFDS命令行操作
1、基本语法bin/hadoop fs 具体命令2、参数大全bin/hadoop fs[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R...原创 2019-05-20 22:34:48 · 1249 阅读 · 0 评论 -
HDFS读写数据流程
1、HDFS写数据流程步骤:1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)NameNode返回3个datanode节点,分别为dn1、dn2、dn3。5)客...原创 2019-05-21 18:43:07 · 184 阅读 · 0 评论 -
Spark的RDD操作:转换(transformation)和行动(action)
RDD的操作分为两大类:转换(transformation)和行动(action)转换:通过操作将一个RDD转换成另一个RDD行动:将一个RDD进行求值或者输出所有这些操作主要针对两种类型的RDD: 1)数值RDD 2)键值对RDD注:RDD的所有转换操作都是懒执行的,只有当行动操作出现的时候Spark才会去真的执行=====================...原创 2019-05-29 21:16:00 · 4125 阅读 · 0 评论 -
Spark的RDD的依赖关系
RDD的依赖关系:宽依赖、窄依赖、Lineage(血统关系)宽依赖:指的是多个子RDD的Partition会依赖同一个父RDD的Partition,会引起shuffle(可以理解为超生)窄依赖:指的是每一个父RDD的Partition最多被子RDD的一个Partition使用(可以理解为独生子女) Lineage:应用在整个过程中,RDD之间形成的产生关系,就叫做血统...原创 2019-05-29 21:19:00 · 681 阅读 · 0 评论 -
Spark的DAG图
DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分成不同的Stage,对于窄依赖,partition的转换处理在Stage中完成计算。对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算,因此宽依赖是划分Stage的依据。 ...原创 2019-05-29 21:21:30 · 5622 阅读 · 2 评论 -
MapReduce架构及原理解析
目录一、MapReduce概念1为什么要MapReduce2 MapReduce的核心思想3 MapReduce进程4 MapReduce编程规范(八股文)WordCount案例5 MapReduce程序运行流程分析二、Hadoop序列化1Writable序列化1.1 常用数据序列化类型1.2自定义bean对象实现序列化接口三、MapRed...原创 2019-06-13 23:20:30 · 2883 阅读 · 0 评论 -
在Intellij IDEA搭建Scala开发环境,以及使用Intellij IDEA开发Scala程序
1、Scala在Windows系统上的安装及环境配置1)安装JDK1.8版本(注意:一定要是1.8版本,否则会有错误)>> 官网下载JDK1.8Oracle官网下载JDK的地址:https://www.oracle.com/technetwork/java/javase/downloads/index.html自行选择32或64位下载,下载之前请先勾选“ Accep...原创 2019-03-22 12:57:15 · 17298 阅读 · 4 评论