大数据开发基础入门与项目实战
文章平均质量分 93
大数据开发的入门专栏,包括Java SE基础,与大数据主流框架,包括Hadoop、Spark、Flink和Elastic Stack等,同时知识基础与项目实战相结合,知识体系广、知识点密集,面向就业,适合大数据入门者。
东哥说AI
专注AI、RPA、Python等前沿技术,分享AI工具、变现思路。关注东哥不迷路,创富路上大踏步。
展开
-
大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之6.Impala交互式查询
Impala的核心开发语言是SQL语句,Impala有shell命令行窗口、JDBC等方式来接收SQL语句执行,对于复杂类型分析可以使用C++或者Java来编写UDF函数。Impala的SQL语法高度集成了Apache Hive的HQL语法,Impala支持Hive支持的数据类型以及部分Hive的内置函数。包括3部分:Impala-Shell,分为外部命令和内部命令;Impala SQL语法,与关系型数据库的SQL语法类似;导入数据以及JDBC方式查询Impala,有多种数据导入方式,也支持接口编程。原创 2021-11-28 17:33:40 · 1662 阅读 · 0 评论 -
大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之5.即席查询Impala介绍及入门使用
本文主要介绍了即席查询工具Impala及入门使用:Impala概述,包括Impala的概念和优势、Impala的缺点及适用场景;Impala的安装与入门,包括准备工作、制作本地yum源、安装Impala、Impala启动和完善和入门案例;Impala架构原理,包括Impala组件和Impala单机执行计划和分布式执行计划。Impala是Cloudera提供的一款开源的针对HDFS和HBASE中的PB级别数据进行交互式实时查询,参考了Google的Dremel,基于大规模并行处理实现,最大的特点是快速。原创 2021-11-21 21:06:24 · 1771 阅读 · 1 评论 -
大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作
本文主要介绍了Hive的DDL、DQL和数据操作:HQL操作之DDL命令,包括数据库操作、建表语法、内部表及外部表、分区表、分桶表、修改表和删除表;HQL操作之数据操作,包括load装载数据和insert插入数据;HQL操作之DQL命令,包括简单查询、简单子句、group by分组子句、表连接、order by排序子句、sort by排序、distribute by和cluster by排序。Hive的DDL、DQL、导入数据等方面与关系型数据库存在一定的相似性,因此入手相对容易,但是也存在很多不同。原创 2021-11-14 20:38:07 · 2539 阅读 · 0 评论 -
大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之3.数据仓库工具Hive基础
本文主要介绍了数据仓库工具Hive基础,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,是将SQL查询语句转化为MR任务进行计算:Hive概述,包括数仓工具Hive的产生背景、数仓工具Hive与RDBMS对比、数仓工具Hive的优缺点和数仓工具Hive的架构原理;Hive安装与配置,包括安装准备、安装MySQL元数据库、Hive的安装与配置、Hive安装的注意事项和参数配置;数据类型与文件格式,包括基本数据类型及转换、集合数据类型和Hive文本文件数据编码及读时模式。原创 2021-11-07 11:32:54 · 8661 阅读 · 0 评论 -
大数据开发基础入门与项目实战(二)Java Web数据可视化之4.Linux基本操作命令和功能
本文主要介绍了Linux基本操作命令和功能:常用Linux命令的基本使用,包括Linux常用快捷键、命令格式及帮助手册使用、切换目录、展示目录、创建和删除目录、创建和删除文件、复制与剪切、cat查看文件、more和less命令查看文件、重定向输出符号、管道符即逻辑控制符&&和history查看历史;打包和压缩,包括打tar包和解tar包、压缩与解压缩;时间日期;搜索查找,包括find查找和grep过滤查找;vi编辑器,包括vi编辑器的使用和vi编辑器复制和剪切。掌握操作命令是熟悉使用Linux的基础。原创 2021-09-08 21:39:10 · 654 阅读 · 3 评论 -
大数据开发基础入门与项目实战(二)Java Web数据可视化之3.Linux概述、安装和结构
本文主要介绍了Linux概述、安装和结构:Linux概述,包括Linux简介和Linux的应用领域及版本介绍;安装Linux,包括VMWare的安装、使用VMWare构建虚拟机器、安装CentOS操作系统、配置静态IP、给虚拟机设置快照和客户端连接工具的介绍和使用;Linux结构,包括Linux组成和Linux目录结构。Linux is not Unix,Linux是一套免费使用和自由传播的类Unix操作系统,有很多发行版,包括Ubuntu、RedHat和CentOS,有着开源的特点和强大完善的功能。原创 2021-09-07 22:13:29 · 512 阅读 · 2 评论 -
大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之2.HDFS分布式文件系统
本文主要介绍了HDFS分布式文件系统:HDFS特点;命令行和API操作HDFS,包括Shell命令行客户端、API客户端连接HDFS的两种方式、API客户端上传下载文件、API客户端文件详情及文件类型判断、API客户端IO流操作和API客户端IO流seek读取;HDFS读写机制解析;HDFS元数据管理机制,包括Namenode、Fsimage及Edits编辑日志、2NN及CheckPoint等;Hadoop限额、归档及集群安全模式;日志采集案例,包括需求分析、调度功能实现、采集上传功能实现和程序调优。原创 2021-09-04 21:49:36 · 645 阅读 · 4 评论 -
大数据开发基础入门与项目实战(三)Hadoop核心及生态圈技术栈之1.Hadoop简介及Apache Hadoop完全分布式集群搭建
本文主要介绍了Hadoop简介及Apache Hadoop完全分布式集群搭建:大数据简介,包括知识体系、大数据定义及应用场景和大数据发展趋势及从业人员发展路线等;Hadoop简介,包括Hadoop概念、起源、特点、发行版本和优缺点等;Hadoop的重要组成,狭义包括HDFS框架、MapReduce框架和Yarn框架;Apache Hadoop 完全分布式集群搭建,包括虚拟机环境准备、环境变量配置、集群规划实施、编写集群分发脚本、集群启动(单节点启动、集群群起和集群停止)、集群测试和历史日志服务器配置。原创 2021-09-03 22:32:51 · 1754 阅读 · 7 评论 -
大数据开发基础入门与项目实战(二)Java Web数据可视化之2.MySQL单表、约束和事务
本文介绍了MySQL的单表查询、数据库约束和事务:DQL操作单表,包括DQL之排序查询、DQL之聚合函数、DQL之分组查询和limit关键字;SQL约束,包括约束的介绍、主键约束、主键自增、非空约束、唯一约束和默认值;数据库事务,包括事务的基本概念、MySQL手动提交事务、MySQL自动提交事务、MySQL事务四大特性ACID、MySQL事务隔离级别、隔离级别相关命令、脏读及解决、不可重复读及解决和幻读及解决。数据库约束和事务在保证数据的完整性和一致性上发挥了重要作用,保证了数据库操作的ACID特性。原创 2021-09-02 21:22:50 · 520 阅读 · 4 评论 -
大数据开发基础入门与项目实战(二)Java Web数据可视化之1.MySQL基础和SQL入门
本文主要介绍了MySQL基础和SQL入门:数据库的概念,包括数据库的基本概念和常见的数据库软件;MySQL的安装及配置,包括MySQL的安装、MySQL的卸载、MySQL配置环境变量、MySQL的启动和关闭、命令行登录MySQL、SQLYog的介绍和安装、MySQL的目录结构、数据库管理系统和数据库表;SQL,包括SQL的概念、SQL通用语法、SQL的分类、DDL操作数据库之创建和查询、MySQL自带数据库的介绍、DDL操作数据库之修改和删除、MySQL常见数据类型、DDL操作数据表和DML增删改等。原创 2021-09-01 21:41:12 · 1194 阅读 · 1 评论 -
大数据开发基础入门与项目实战(一)Java SE之8.IO流
本文介绍了Java中的IO流:IO流的概念,包括IO流的概念和分类和IO流的框架结构;文件操作流,包括FileWriter类的概念和使用、FileReader类的概念和使用、文件字符流实现文件的拷贝、文件字节流实现文件的拷贝和文件字节流实现文件的拷贝;缓冲操作流,包括缓冲字节流实现文件的拷贝、缓冲字节流和文件字节流效率比较和缓冲字符流的使用;其他流,包括打印流和转换流模拟聊天的功能实现、字符编码、数据流的概念和使用、对象流的概念和使用和RandomAccessFile类的概念和使用。可以根据需要选择。原创 2021-08-29 20:29:54 · 435 阅读 · 0 评论 -
大数据开发基础入门与项目实战(一)Java SE之7.异常机制和File类
.本文主要介绍了Java中的异常机制和File类:异常机制包括异常机制的基本概念、异常机制的分类和结构、异常的避免、异常捕获的实现、异常捕获的注意事项、finally的使用、异常抛出的实现、方法重写中异常抛出规则的验证、自定义异常类的实现和自定义异常类的使用,处理异常的顺序是避免异常的发生、捕获异常和抛出异常;File类包括File类的概念和文件操作、File类实现目录操作和File类实现目录及子目录的遍历,FIle类只能获取文件基本信息和对文件进行操作,而不能读取和修改文件内容,此时需要用到IO流。原创 2021-08-26 10:20:02 · 490 阅读 · 1 评论 -
大数据开发基础入门与项目实战(一)Java SE之6.String类的概述和使用
本文主要介绍了String类的概念和使用:String类的概念和构造方法,包括String类和常量池的概念、String类常用构造方法的使用和String类的笔试考点;String常用的成员方法及使用包括String类型和数组之间的转换、String类中字符的获取和使用、String类对象实现回文的判断、字符串之间大小的比较、使用方法操作字符串、实现模拟登录功能、实现字符和字符串的正向和反向查找和子字符串的获取;正则表达式的概念和使用,包括正则表达式的概念和规则、正则表达式的编程使用和相关方法的使用。原创 2021-08-25 23:15:43 · 473 阅读 · 0 评论 -
大数据开发基础入门与项目实战(一)Java SE之5.常用类的概述和使用
本文主要介绍了Java常用核心类库的概述和使用:API的使用和常用包的概述;Object类的概述,包括Object类的概念和构造方法、equals方法的使用和重写、hashCode方法的重写、toString方法的重写和equals方法和hashCode方法的生成等;包装类,包括包装类的概念和分类、Integer类的概念和使用、Double类的概念和使用、Boolean类的概念和使用和Character类的概念和使用等;数学处理类包括Math、BigDecimal和BigInteger类的概念和使用。原创 2021-08-23 13:52:58 · 728 阅读 · 4 评论 -
大数据开发基础入门与项目实战(一)Java SE之4.方法和封装
本文主要介绍了方法和封装:构造方法,包括构造方法的概念和应用和构造方法的作用;方法重载,包括重载的概念和体现形式、方法重载的简单应用和重载的实际意义;this关键字,包括this关键字的概念、this关键字的工作原理、this关键字的使用方式(调用成员变量和方法、作为方法的返回值和调用其他构造方法)和引用类型变量的注意事项;方法递归调用,包括阶乘的计算、递归方式的本质和注意事项和斐波拉契数列的递归实现;封装,包括代码的拆分实现、封装的概念、封装的实现、封装类实现学生信息的录入和JavaBean的概念。原创 2021-08-21 14:25:29 · 552 阅读 · 6 评论 -
大数据开发基础入门与项目实战(一)Java SE之3.类和对象
本文主要介绍了Java中的类和对象:面向对象编程,主要包括对象和面向对象的概念、面向对象编程的概念、类和对象的概念;类和对象以及引用,主要包括类、对象和引用的定义、Person类的定义、Point类的定义;成员方法,主要包括成员方法的概念和定义、类中参数和返回值的多种情况下成员方法的定义和调用(无参无返回值成员方法的定义与调用、有参无返回值成员方法的使用、多个形参成员方法的使用、可变长参数的使用、无参有返回值方法的使用)、方法的传参过程、参数传递的注意事项。面向对象是Java的重要思想,需要好好掌握。原创 2021-08-19 21:09:07 · 421 阅读 · 0 评论 -
大数据开发基础入门与项目实战(一)Java SE之2.变量和数据类型
本文的主要内容是Java中的变量和数据类型。变量包括变量的基本概念、变量的声明和使用、变量使用的注意事项、标识符的命名法则、变量输入输出案例和优化和手册的介绍和官方库的使用等。数据类型包括数据类型的分类、常用的进制、进制之间的转换、单个字节表示的整数范围、整数类型、整数类型的编程使用、整数类型笔试考点、浮点类型、布尔类型的概念和使用、字符类型的概念和使用、Unicode字符集的概念和使用、转义字符的概念和使用、类型转换的概念和使用等。变量和数据类型是Java中的知识基础,也是后面一切知识和体系的核心。原创 2021-08-17 13:00:01 · 380 阅读 · 5 评论 -
大数据开发基础入门与项目实战(一)Java SE之1.初识计算机和Java语言
本文主要介绍了初识计算机和Java语言,主要包括计算机的体系结构(计算机的基本概念、常见的主要硬件(CPU、内存、硬盘和输入输出设备)、主要硬件的详解、常见的主要软件、计算机的体系结构)、Java语言概述(计算机语言的发展、Java语言的发展和Java语言的主要版本)和开发环境的搭建和使用(开发环境和工具的下载和安装、安装目录和概念解读、编写Java程序的流程、常见的错误和简化的编译运行、常用的快捷键和注释、环境变量的配置和跨平台原理)等,大数据开发的基础是Java,因此熟练掌握Java开发极为重要。原创 2021-08-15 20:58:53 · 1382 阅读 · 4 评论