自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 大数据开发学习资料汇总

目录大数据系列HadoopHadoop权威指南Hadoop权威指南修订Hadoop实战Hadoop实战_2Hadoop源码分析大数据处理系统:Hadoop源代码情景分析Hadoop开发者入门专刊Hadoop技术内幕:深入解析MapReduce架构设计与实现原理Hadoop技术内幕:深入解析YARN架构设计与实现原理Hadoop YARN权威指南Hadoop奶妈级基础入门视频课:Linux嵌入式Linux应用程序开发教程Linux C编程一站式学习Linux操作系统原理Linux命令、编辑器、Shell编程实

2022-06-27 15:28:00 1049 1

原创 大数据开发教程——Scala编程进阶

默认继承ScalaObjectval vs. var Members (成员)rait通过指定支持的方法的签名,来定义对象类型traits可以部分实现变量可以定义在trait内不能有带参数的构造函数An Abstract can only extend on super-class, while a Trait can extend multiple Traits; (一个抽象类只可以 有一个基类,而一个trait可以继承多个trait)A Trait can only have paramet

2022-06-22 10:31:29 429

原创 大数据开发教程——Scala编程基础

Scala 全称为 Scalable Language,即“可伸缩的语言”,之所以这样命名,是因为它的设计目标是希望伴随着用户的需求一起成长。Scala 是一门综合了面向对象和函数式编程概念的静态类型的编程语言,它运行在标准的 Java 平台上,可以与所有的 Java 类库无缝协作。Scala是一种非常优秀且经过优化的语言,但对初学者不太友好,Scala 程序与 Java 程序非常相似,可以自由地与 Java 代码交互。因此一般都是学完Java之后再学Scala。......

2022-06-22 10:22:35 803

原创 Apache软件又双叒叕更新了~ Apache Doris 安装教程

话不多说,开始安装。有一定英语阅读能力的同学,请直接跳转下面链接,宝宝式安装教程:Apache Doris安装地址其他同学,请跟着下列步骤走。我根据之前写的文章带着大家配置的虚拟机来配置(和官方文档稍有不同)。以下是环境所需参数:以上条件中每一行任选其一即可。请确保已经按照我之前文章中的内容安装成功虚拟机,这边不在详细讲解功能了。2、下载ApacheDoris(直接在linux运行下列命令即可)3、解压下载好的文件提示:默认下载地址在root里比如可以按照这个代码移动文件5、进入到你的Dori

2022-06-17 11:31:17 668

原创 大数据开发教程——企业级离线数据仓库项目实战开发

数据仓库,英文名称为 Data Warehouse,可简写为 DW 或 DWH。数据仓库,是为企业所有级别的决 策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。​1、面向业务的数据库常称作 OLTP (mysql,SQLServer,Oracle)系统,关注增删改事务操作,面向分析的数据仓库亦称为 OLAP(hive,hbase),关注查询分析OLAP的数据分析引擎 ->

2022-06-14 11:31:18 1368

原创 大数据开发教程——ZooKeeper分布式协调组件

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase,Flink的重要组件。中文名:动物管理员它是一个为分布式应用提供一致性服务的软件。配置维护、域名服务、分布式同步、组服务等。zookeeper简化了分布式应用的 管理和部署,开发人员只需要专注于业务的开发,而不用担心应用服务的分布式特性。Apache ZooKeeper致力于开发和维护开源服务器,以实现高度可靠的分布式协调服务。官网地址: http://ZooKee

2022-06-14 10:29:34 321

原创 大数据开发教程——Apache Sqoop介绍及数据迁移

Sqoop是一个用于在Hadoop和关系数据库,或商业服务器之间的数据传输的工具从RDB导入数据到HDFS)导出数据从HDFS到RDBSqoop使用MapReduce导入和导出数据,提供并行操作和容错Sqoop 增量导入追加所有匹配的记录(可能 在目标中创建重复记录)在源表中有数据更新的时候使用,检查列就必须是一个时间戳或日期类型的字段,更新完之后, last-value会被设置为执行增量导入时的当前系统时间)MySQL -> HBase数据迁移更多大数据开发学习教程和内容戳⬇⬇⬇

2022-06-14 10:18:15 284

原创 大数据开发教程——Apache HBase API介绍及性能优化

Official API is Java (官方API是Java)It support full set of hbase commands (支持所有hbase 命令集的操作)External API Apache HBase ™ Reference Guide (官方介绍)HBase Rest API Demo (Hbase Rest接口,了解)Start/Stop rest servicenhbase-daemon.sh start rest -p 9081hbase-daemon.sh

2022-06-14 10:13:27 229

原创 大数据开发教程——Nosql综述和ApacheHBase基础

NoSQL:即:not only SQL,非关系型数据库。​NoSQL是一个通用术语,指不遵循传统RDBMS模型的数据库,数据是非关系的,且不使用SQL作为主要查询语言;解决数据库的可伸缩性和可用性问题,不针对原子性或一致性问题。​HBase is a core storage in Alibaba search systemsince2010(自2010年以来,HBase一直是阿里巴巴搜索系统的核心存储)-20102014:0.20->0.94。20142015:094->0.98。2016 0.98-

2022-06-13 13:51:29 171

原创 大数据开发教程——Apache Hive实战

领取更多大数据开发学习教程以下是正文:CTAS – Create Table As SelectCREATE TABLE ctas_employee as SELECT * FROM employee(基于select查询的结果生成表)CTAS CANNOT create a partition, external, or bucket table(不能生成分区表,外部表,桶表)Create table like other table (fast):CREATE TABLE employee_like L

2022-06-13 11:12:32 215

原创 大数据开发教程——Apache Hive进阶

想要视频学习资料和软件安装包的,戳⬇⬇⬇免费领取500节大数据开发课程​To support features like schema(s) and data partitioning Hive keeps its metadata in a Relational Database (为了支持schema和数据分区等功能,Hive将元数据保存在关系型数据库中)By default, Hive is Packaged with Derby (默认情况下,Hive与Derby打包在一起)Can easily

2022-06-13 10:41:32 145

原创 大数据开发教程——构建Hadoop开发环境

Hadoop是由 Apache 基金会开发和维护的一个开源的分布式计算和存储框架。Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。Hadoop 使用 Java 开发,所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS,HDFS) 和 MapReduce。Hadoop是目前大数据中最主流的框架,所以是必学的内容。core-s

2022-06-13 10:22:32 658

原创 大数据开发学习教程——大数据的基本概念

大数据(Big Data),是一个描述大量高速,复杂和可变数据的术语,需要先进的技术来实现信息的捕获,存储,分发,管理和分析。大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程。​目前的数据相关岗位主要是分为二个方向,大数据工程和数据分析。常说的大数据分析就是属于大数据工程方面的,主要是针对海量

2022-06-13 10:13:18 1379 1

原创 大数据开发教程——MapReduce原理及编程

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷主要是为了解决其搜索引擎中大规模网页数据的并行化处理。Google公司发明了MapReduce之后首先用其重新改写了其搜索引擎中的Web文档索引处理系统。但由于Map

2022-06-13 09:48:54 877

原创 大数据开发教程——Apache Hive基础

Hive是Hadoop下的顶级 Apache项目,早期的Hive开发工作始于2007年的 Facebook。它可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析

2022-06-13 09:40:28 696

原创 大数据开发教程合集——需要学习哪些内容?

大数据概况及Hadoop环境构建Apache Hadoop 分布式文件系统MapReduce 编程模型基础和实战Hive-数据仓库基础Hive-数据仓库进阶Hive-数据仓库实战Nosql综述和ApacheHBase基础Apache Hbase 进阶及性能优化Apache Sqoop介绍及数据迁移ZooKeeper的核心设计和企业级应用企业级离线数据仓库项目实战开发Sc..........................................

2022-06-10 10:08:26 396

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除