大数据初学者怎样学习？Java工程师怎么转行大数据？

最新推荐文章于 2024-01-20 16:21:10 发布

大数据开发交流

最新推荐文章于 2024-01-20 16:21:10 发布

阅读量545

点赞数 1

分类专栏：大数据大数据学习大数据开发云计算 Spark Hadoop hdfs Linux 大数据工程师文章标签：大数据大数据学习 Linux Hadoop spark

本文链接：https://blog.csdn.net/qq_41800874/article/details/82799211

版权

82 篇文章 4 订阅

订阅专栏

78 篇文章 0 订阅

订阅专栏

70 篇文章 0 订阅

订阅专栏

最近好多人都在问我，大数据怎么学，java怎么转大数据，今天就给大家分享一下。

大数据初学者怎样学习或Java工程师怎么转大数据

大数据现在很火很热，但是怎么学习呢？下面我给大家分享一下：
大数据学习群119599574

首先给大家普及一下大数据相关知识大数据的4大特征：

1.数据在体量方面很大，比如说文字，有各种各样的来源，有电子书|实体书|杂志|报刊等，它们的数据大吧。

2.数据的类型多种多样，有些是结构化的数据，像存在Oracle,MySQL这些传统的数据库里的数据，一般都是结构化，可以是还有非结构化，比如HTML,WORD，execl等格式。

3.它们的价值密度低，这样说吧，你比如说观看一条数据好像价值也不大，但是分析所有的数据之后呢？总会挖掘出一些重要的东西。

4.处理这些数据的速度要快。比如像Hadoop技术的MapReduce计算框架，相比传统的数据库处理速度要快，它的吞吐量特别的大，再比如Spark，Spark在内存方面计算比Hadoop快100倍，在磁盘方面计算快10倍。

大数据的方向的工作有大数据运维工程师、大数据开发工程师、数据分析、数据挖掘、架构师等。

大数据的技术有

大数据初学者怎样学习或Java工程师怎么转大数据？

看到这么多技术是不是有点晕呢？该怎么学习呢？

大数据初学者怎样学习或Java工程师怎么转大数据？

先学Hadoop Hadoop框架中由两大模块组成，一个HDFS(Hadoop Distributed File System)，是用来存储需要处理的数据，另外一个是MapReduce，是Hadoop的处理数据的计算模型。
学习一门数据库，像MySQL学点SQL吧
Hive 只要你会SQL，你就会使用它。hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。
HBase HBase即Hadoop DataBase，Hadoop的数据库，HBase是一种 "NoSQL" 数据库,即不是RDBMS ，不支持SQL作为主要访问手段。
Sqoop Sqoop是迁移数据工具，可以在很多数据库之间来迁移，
Flume Flume是一个分布式的海量日志采集和传输框架，一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
Kafka 使用Kafka完成数据的一次收集，多次消费。它是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统。
Spark基于内存计算的框架 Spark Core最为重要再学SparkSQL、Spark Streaming、图计算、机器学习
Storm实时的流计算框架。