文章目录
一、大数据简介
1.1 课前准备,什么是大数据
大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
■ 1Byte = 8 bit
■ 1KB = 1024B
■ 1MB = 1024KB
■ 1G = 1024MB
■ 1T = 1024G
■ 1PB = 1024TB
1.2大数据的特征
■ 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
■ 种类(Variety):数据类型的多样性;
■ 速度(Velocity):指获得数据的速度;
■ 可变性(Variability):妨碍了处理和有效地管理数据的过程。
■ 真实性(Veracity):数据的质量
■ 复杂性(Complexity):数据量巨大,来源多渠道
■ 价值(value):合理运用大数据,以低成本创造高价值
1.3 学习的路线和课程概述
■ JAVA =====> 面向对象编程语言
■ Linux =====> 类Unix操作系统
■ Hadoop生态
■ HDFS =====> 解决存储问题
■ MapReduce =====> 解决计算问题
■ Yarn =====> 资源协调者
■ Zookeeper =====> 分布式应用程序协调服务
■ Flume =====> 日志收集系统
■ Hive =====> 基于Hadoop的数仓工具
■ HBase =====> 分布式、面向列的开源数据库
■ Sqoop =====> 数据传递工具
■ Scala =====> 多范式编程语言、面向对象和函数式编程的特性
■ Spark =====> 目前企业常用的批处理离线/实时计算引擎
■ Flink =====> 目前最火的流处理框架、既支持流处理、也支持批处理
■ Elasticsearch =====> 大数据分布式弹性搜索引擎
■ .....
1.4 学习后能增加的技能树
1.5 就业大数据岗位
■ 大数据开发工程师
■ 大数据清洗开发工程师
■ 大数据仓库开发工程师
■ 大数据运维开发工程师
■ 大数据平台开发工程师
1.6 起源
1.6.1 名字起源
该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的
1.6.2 项目起源
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
Google是Hadoop的思想之源(Google在大数据方面的三篇论文,“谷歌三宝”)
■ GFS ====> HDFS
■ Map-Reduce ====> MapReduce
■ BigTable ====> HBase
1.7 三大发行版本
■ Apache、Cloudera、Hortonworks
■ Apache版本最原始、最基础:适合零基础 大公司在用
■ Cloudera
■ Cloudera’s DistributionIncluding Apache Hadoop 简称CDH
■ 中小型公司用、简单方便、自带可视化
■ Hortonworks
■ 文档较好
■ 注:Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并
1.8 大数据软件环境部署
1.8.1 实验环境详解
■ 硬性要求:
■ 内存:最低8G+ (建议16G)
■ 个人电脑最大内存检测:
■ win + R 输入 cmd
■ 复制代码:wmic memphysical get maxcapacity
■ 所显示的值:MaxCapacity除以1024的平方
■ MaxCapacity:33554432
■ 33554432 除以 1024 除以 1024 等于 32G
■ 即个人PC的最大支持内存为32G
■ 磁盘:500GB+
1.8.2 我的个人电脑:
1.8.3 安装软件
- Google浏览器: 程序员必备:不用‘谷歌浏览器’的程序员不是好程序员(此句五毛,括号内删除)
- Everything(文件搜索工具):提供对个人PC的快速下载
- Notepad++(文本工具)
- IDEA(集成开发工具) & eclipse
■ 后续学习用于编写Java和Scala代码
■ 全称IntelliJ IDEA、Scala for eclipse
■ 在业界被公认为最好的java开发工具之一
■ 支持多插件
■ 下载地址:百度下载社区版即可https://www.jetbrains.com/ - IDM下载器安装配置
- Markdown 工具推荐及下载 typora、马克飞象
- Windows JDK安装
- VMware Work station虚拟化装置安装
- Linux虚拟机安装及配置
- Xshell安装及配置(myputty类似、虚拟机命令管理及文件上传下载)
- IDEA安装及配置
- Teamview工具安装及下载