2018年12月_Levi_

原创上手Scala到开发程序

Scala前言照着这文档敲个遍，把注释也一起敲，如果只是看的话，那么就不要浪费时间了。这些代码都是可以运行，经过测试的。为什么要学习Scala？目前Spark是新一代的内存型大数据计算框架，是目前大数据技术生态圈中非常主流的一门技术。而Spark就是使用Scala编写，包括Kafka早期底层也是用Scala写的，因此为了更好的学习...

2018-12-30 15:43:29 831

原创 Kafka入门与详解，什么是Kafka

Kafka为什么要有Kafka？在目前流量越来越大的时代，很多时候我们的服务器资源是没有利用到的，而是在某一瞬间才利用到这个资源，而这一瞬间正是服务器流量的高峰期，而如果没有先弄多几台服务器加强集群的性能，可能就在那一刻就挂了。 Kafka就是将这些流量进行一个排队缓存，一个一个来，相当于一个保安维护好整个秩序。什么是kafka？ K...

2018-12-22 17:28:15 527

原创什么是Hadoop - HDFS - MapReduce - YARN - HA

Hadoop为什么要有Hadoop？从计算机诞生到现今，积累了海量的数据，这些海量的数据有结构化、半结构化、非结构的数据，并且这些海量的数据存储和检索就成为了一大问题。我们都知道大数据技术难题在于一个数据复杂性、数据量、大规模的数据计算。Hadoop就是为了解决这些问题而出现的。Hadoop的诞生 Doug Cutting是Luc...

2018-12-22 16:57:26 569

原创什么是Storm？从入门到上手使用

Storm离线计算离线计算就是批量的处理数据，周期性的批量计算数据。代表技术：Sqoop – 批量导入数据 HDFS – 批量存储数据 MapReduce – 批量计算数据...

2018-12-23 02:03:27 663

原创什么是Flume？入门Flume到上手

Flume为什么要有Flume？大量的日志在不同的服务器上，要对这些日志进行分析的话，需要通过编写脚本将这些日志文件传输到HDFS上，太麻烦了。什么是Flume？ Flume基于流式架构的是一个分布式海量日志采集、传输系统，具有容错性强、可靠、灵活、简单等优点在。 Flume可以采集文件，Socket数据包等各种形式的源数据，将这些数...

2018-12-23 02:03:17 273

原创什么是大数据？

为什么要有大数据？从计算机的出现，到人类使用计算机并且利用计算机提高工作效率的时间已经过去半个世纪之久。在这期间计算机硬件不断的升级，软件不断丰富，不断的满足用户的需求，在各个方面提高人类的效率，常见的有出行、购物、支付.... 成千上百倍的效率提高背后是大量的职业工作者对各种用户需求的挖掘，这些需求已经慢慢的给挖掘的消以殆尽，并且需求的挖掘是带有倾向...

2018-12-23 02:03:04 304

原创什么是Azkaban - 流式调度框架

为什么要有Azkaban？在数据业务场景，对于数据的处理往往是分阶段处理，而不同的阶段可能采用了不同的技术框架去完成这个业务需求，且可能在不同的阶段要干不同的事。炒饭(锅) à 吃饭(碗) à 筷子(动手)要吃饭就要等炒饭先用锅炒好，要用筷子动手吃饭就要等碗里装了饭，这是一个流水线式的过程，如果用设定时间的方式，到了什么时候就拿完去装饭，但如果今天兼职的人特别多，那么炒的饭必然就多了，...

2018-12-22 17:23:14 737

原创 Oozie&Azkaban区别

Oozie Azkaban 配置复杂简单使用重量级轻量调用 MapReduce、pig、Java、脚本等….. MapReduce、p...

2018-12-22 17:21:50 736

原创什么是Oozie - 流式调度器

为什么要有Oozie？在数据业务场景，对于数据的处理往往是分阶段处理，而不同的阶段可能采用了不同的技术框架去完成这个业务需求，且可能在不同的阶段要干不同的事。炒饭(锅) à 吃饭(碗) à 筷子(动手)要吃饭就要等炒饭先用锅炒好，要用筷子动手吃饭就要等碗里装了饭，这是一个流水线式的过程，如果用设定时间的方式，到了什么时候就拿完去装饭，但如果今天兼职的人特别多，那么炒的饭必然就多了，时间...

2018-12-22 17:20:52 362

原创什么是Zookeeper，以及机制详解与实现

为什么要有Zookeeper？电视里经常会有一些狗血的设定，队长和副队长一起出去执行任务，执行完任务后副队长回来报到了，但是队长可能因为天气原因导致航班延期了，暂时回不来，这个时候副队长左等右等还等不到队长回来，而且副队长担心队长如果出事了，下面的队员没有人约束，大家可能就会松懈下来，副队长等了一个星期后，自己当队长了。结果过了两个星期后，队长回来了，这个时候就产生...

2018-12-22 17:17:39 584

原创什么是HBase？一起来解析HBase内部

为什么要有HBase？ Hadoop生态圈中有了Hive，Hive可以像关系型数据库那样操作数据，那么为什么还要有HBase？首先HBase是一个非关系型数据库，是用于存储数据的，Hive是用于处理数据的。 Hive操作数据时虽然可以像关系型数据库那样操作，但Hive只是一个操作工具，而非一个针对大批量数据存储的解决方案。我们先来看看HB...

2018-12-22 17:08:15 369

原创什么是Sqoop，以及应用

Sqoop为什么要有Sqoop？将数据从别的数据库导到Hadoop、Hbase或Hive太麻烦了。什么是Sqoop？ Sqoop就是Hadoop、Hive、HBase等数据仓库与数据库之间传输数据的工具。，就是将导入(输入)和导出(输出)的命令映射成MR程序。导入：MySQL等数据库数据导入到HDFS、Hive、HBase等数据仓库导出...

2018-12-22 17:04:17 358

原创什么是Hive？Hive应用

为什么要有Hive？在使用Hadoop的过程中，大家都会感觉每次都要写MR程序才能操作到HDFS的文件，太麻烦了，而且如果项目又赶，项目人员不会写MR程序，还要花费大量的时间去学，但是我是知道文件内容，是用什么分割的，分割后的每一列是什么意思，感觉好像关系型数据库。于是有群人就有了个想法，既然我知道了这些数据分割后的每一列数据的意义，那么能不能把关系型数据库的SQL解析器搬过来呢？并把...

2018-12-22 17:01:51 375

原创什么是Liunx？什么是Shell脚本？Liunx的应用、Shell脚本编写与应用

为什么要有Liunx？我们用手机浏览器打开一个网页的时候，和用电脑浏览器打开同一个网页时，显示是不一样的，手机浏览器会自动的去适应这个网页，但是如果手机打开的网页和电脑浏览器打开的网页那样，那么就要我们自己去进行缩放，去找到自己的东西，那样很麻烦，我们的操作也很不方便。所以系统程序在Liunx运行的时候，Liunx会自动去协调、调整相关的参数，并且Liunx提供好一...

2018-12-22 14:21:23 1590

原创 Windows下的Hadoop调试的错误org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z

org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z hadoop路径下的bin要有hadoop.dll另外要把hadoop.dll放到C:\Windows\System32

2018-12-05 16:05:14 433

Su_Levi_Wei的博客