hbase 数据导出乱码_大数据技术怎么学习呢？给你一套全网最系统的自学路线+教程...

最新推荐文章于 2021-12-22 09:52:13 发布

weixin_39606048

最新推荐文章于 2021-12-22 09:52:13 发布

阅读量109

点赞数

文章标签： hbase 数据导出乱码

大数据处理技术怎么学习呢？

首先我们要学习Python语言和Linux操作系统，这两个是学习大数据的基础，学习的顺序不分前后。

Python：Python 的排名从去年开始就借助人工智能持续上升，现在它已经成为了语言排行第一名。

从学习难易度来看，作为一个为“优雅”而生的语言，Python语法简捷而清晰，对底层做了很好的封装，是一种很容易上手的高级语言。在一些习惯于底层程序开发的“硬核”程序员眼里，Python简直就是一种“伪代码”。

在大数据和数据科学领域，Python几乎是万能的，任何集群架构软件都支持Python，Python也有很丰富的数据科学库，所以Python不得不学。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。

Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了，这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了，让它直接跑在现有的hadoop yarn上面就可以了。

其实把Hadoop的这些组件学明白你就能做大数据的处理了，只不过你现在还可能对”大数据”到底有多大还没有个太清楚的概念，听我的别纠结这个。

等以后你工作了就会有很多场景遇到几十T/几百T大规模的数据，到时候你就不会觉得数据大真好，越大越有你头疼的。

当然别怕处理这么大规模的数据，因为这是你的价值所在，让那些个搞Javaee的php的html5的和DBA的羡慕去吧。

第一阶段学习结束，掌握上述知识，就可以从事大数据方面的工作了。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。

它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?

你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。

这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。

当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。

有的人说Pig那?它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。

我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

资料大纲

第一阶段linux 系统

章节1：linux 基础

第二阶段大型网站高并发处理

章节1：高并发与负载均衡

第三阶段Hadoop 分布式文件系统：HDFS

章节1：Hadoop 简单介绍及架构设计

章节2：Hadoop 高可用集群及java API

第四阶段Hadoop 分布式计算框架：Mapreduce

章节1：MapReduce 分布式计算框架架构设计及项目案例

第五阶段Hadoop 离线体系：Hive

章节1：hive 架构设计及集群搭建

章节2：hive 基本操作

章节3：hive 权限管理及优化

第六阶段Hadoop 离线计算体系：Hbase

章节1：hbase 架构设计及hbase 部署

章节2：hbase 基本操作及性能优化

第七阶段Zookeeper 开发

章节1：zookeeper 架构及开发

第八阶段elasticsearch 分布式搜索

章节1：lucene 介绍

章节2：elasticsearch 安装及使用

第九阶段CDH 集群管理

章节1：CDH 搭建及使用

第十阶段Storm 实时数据处理

章节1：storm 介绍及部署

章节2：storm 深入学习及案例讲解

第十一阶段Redis 缓存数据库

章节1：Redis 介绍及使用

第十二阶段Spark 核心部分：Spark Core

章节1：Spark 介绍计算子使用

章节2：Spark 集群搭建及提交方式

章节3：Spark 核心概念讲解及资源任务调度源码分析

章节4：SparkSQL 介绍及使用

章节5：kafka 的使用及 SparkStreaming 介绍及使用

章节6：Spark 案例实现

第十三阶段机器学习

章节1：Python 语法介绍及案例实现

章节2：R 语言语法及机器学习算法

第十四阶段机器学习：推荐系统项目

章节1：推荐系统需求分析及架构分析

章节2：推荐系统案例

最后，如果大家需要这套视频自学教程的话，只需后台私信柠檬关键词：“资料”就可以免费领取到这套资料啦！

weixin_39606048

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫