【初识大数据】1、大数据简介

一、大数据简介

1.1 课前准备,什么是大数据

大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

■ 1Byte = 8 bit
■ 1KB = 1024B
■ 1MB = 1024KB
■ 1G = 1024MB
■ 1T = 1024G
■ 1PB = 1024TB

1.2大数据的特征

■ 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;
■ 种类(Variety):数据类型的多样性;
■ 速度(Velocity):指获得数据的速度;
■ 可变性(Variability):妨碍了处理和有效地管理数据的过程。
■ 真实性(Veracity):数据的质量
■ 复杂性(Complexity):数据量巨大,来源多渠道
■ 价值(value):合理运用大数据,以低成本创造高价值

1.3 学习的路线和课程概述

■ JAVA                =====> 面向对象编程语言
■ Linux               =====>  类Unix操作系统
■ Hadoop生态
	■ HDFS                =====> 解决存储问题
	■ MapReduce           =====> 解决计算问题
	■ Yarn		=====> 资源协调者
	■ Zookeeper           =====> 分布式应用程序协调服务
	■ Flume               =====> 日志收集系统
	■ Hive                =====> 基于Hadoop的数仓工具
	■ HBase               =====> 分布式、面向列的开源数据库
	■ Sqoop               =====> 数据传递工具
■ Scala               =====>  多范式编程语言、面向对象和函数式编程的特性
■ Spark               =====> 目前企业常用的批处理离线/实时计算引擎
■ Flink               =====> 目前最火的流处理框架、既支持流处理、也支持批处理
■ Elasticsearch       =====> 大数据分布式弹性搜索引擎
■ .....

1.4 学习后能增加的技能树

学习大数据后增加的知识树

1.5 就业大数据岗位

■ 大数据开发工程师
■ 大数据清洗开发工程师
■ 大数据仓库开发工程师
■ 大数据运维开发工程师
■ 大数据平台开发工程师

1.6 起源

1.6.1 名字起源

该项目的创建者,Doug Cutting解释Hadoop的得名 :“这个名字是我孩子给一个棕黄色的大象玩具命名的
在这里插入图片描述

1.6.2 项目起源
Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
Google是Hadoop的思想之源(Google在大数据方面的三篇论文,“谷歌三宝”)
	■ GFS   	   ====>    	        HDFS
	■ Map-Reduce     ====>		MapReduce
	■ BigTable       ====>		HBase

1.7 三大发行版本

■ Apache、Cloudera、Hortonworks
■ Apache版本最原始、最基础:适合零基础 大公司在用
■ Cloudera
■ Cloudera’s DistributionIncluding Apache Hadoop 简称CDH
■ 中小型公司用、简单方便、自带可视化
■ Hortonworks
■ 文档较好
■ 注:Cloudera 和Hortonworks 在2018年10月,国庆期间宣布合并

1.8 大数据软件环境部署

1.8.1 实验环境详解
■ 硬性要求:
	■ 内存:最低8G+  (建议16G)
		■ 个人电脑最大内存检测:
			■ win + R 输入 cmd
			■ 复制代码:wmic memphysical get maxcapacity
			■ 所显示的值:MaxCapacity除以1024的平方
			■ MaxCapacity:33554432
			■ 33554432 除以 1024 除以 1024 等于 32G
			■ 即个人PC的最大支持内存为32G
	■ 磁盘:500GB+
1.8.2 我的个人电脑:

在这里插入图片描述

1.8.3 安装软件
  • Google浏览器: 程序员必备:不用‘谷歌浏览器’的程序员不是好程序员(此句五毛,括号内删除)
  • Everything(文件搜索工具):提供对个人PC的快速下载
  • Notepad++(文本工具)
  • IDEA(集成开发工具) & eclipse
    ■ 后续学习用于编写Java和Scala代码
    ■ 全称IntelliJ IDEA、Scala for eclipse
    ■ 在业界被公认为最好的java开发工具之一
    ■ 支持多插件
    ■ 下载地址:百度下载社区版即可https://www.jetbrains.com/
  • IDM下载器安装配置
  • Markdown 工具推荐及下载 typora、马克飞象
  • Windows JDK安装
  • VMware Work station虚拟化装置安装
  • Linux虚拟机安装及配置
  • Xshell安装及配置(myputty类似、虚拟机命令管理及文件上传下载)
  • IDEA安装及配置
  • Teamview工具安装及下载
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值