![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
曹世宏的博客
这个博客主要记录我平常学习的一些网络,编程,与计算机有关的一些资料,笔记以及心得体会等。
记录博客,一是为了系统的整理一个大知识块,梳理结构知识点,加深记忆。同时,也把学过的一些东西记录下来发,方便以后用到的时候随时查询。另一个也是希望能对有需要的人有点帮助。共同交流学习。
字节跳动内推链接:https://job.toutiao.com/s/JFToRSu
字节跳动校招内推码: YYG5KEY
投递链接: https://job.toutiao.com/s/Jy8BSv6
展开
-
大数据概述
大数据概述大数据产生的背景:基于海量的存储与处理面临挑战:数据量大,数据种类多。海量数据的高存储成本,大数据两下数据处理性能不足,流式数据处理缺失。优先的扩展能力,单一数据源。数据资产对外增值。行业技术标准的日益形成:数据处理技术分布式演进趋势:Hadoop成为开放的事实标准。各种技术特点: SMP:单机、Scale UP。性能存在瓶颈,扩展性差。SMP+...原创 2018-05-20 14:50:55 · 14912 阅读 · 1 评论 -
Hive常用Shell操作和基础开发
Hive常用的HiveQL操作Hive的基本数据类型:Hive支持基本数据类型和复杂类型, 基本数据类型主要有数值类型(INT、FLOAT、DOUBLE ) 、布尔型和字符串, 复杂类型有三种:ARRAY、MAP 和 STRUCT。a.基本数据类型TINYINT: 1个字节SMALLINT: 2个字节INT: 4个字节BIGINT: 8个字节BOOLEAN: TRUE...原创 2018-06-21 00:10:10 · 1165 阅读 · 0 评论 -
Hive技术原理
Hive概述数据仓库的概念:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。传统数据仓库面临的挑战:无法满足快速增长的海量数据存储需求。无法有效处理不同类型的数据。计算和处理能力不足...原创 2018-06-02 14:21:20 · 8006 阅读 · 0 评论 -
Impala技术原理
Impala简介Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出3~30倍。Impala的运行需要依赖于Hive的元数据。 Impala是参照 Dremel系统进行设计的。Impala采用了与商用并行关系数据库类似的分布式查询引擎,可以直接与HDFS和HBase进行交互查询...原创 2018-06-02 14:22:27 · 2648 阅读 · 1 评论 -
Storm(流计算)技术原理
流计算概述什么是流数据:数据有静态数据和流数据。静态数据:很多企业为了支持决策分析而构建的数据仓库系统,其中存放的大量历史数据就是静态数据。技术人员可以利用数据挖掘和OLAP(On-Line Analytical Processing)分析工具从静态数据中找到对企业有价值的信息。图:静态数据的一般处理流程流数据:近年来,在Web应用、网络监控、传感监测等领域,兴...原创 2018-06-02 14:26:21 · 30901 阅读 · 3 评论 -
Spark技术原理
Spark概述Spark简介:Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。2013年Spark加入Apache孵化器项目后发展迅猛,如今已成为Apache软件基金会最重要的三大分布式计算系统开源项目之一(Hadoop、Spark、Storm)。Spark...原创 2018-06-02 14:30:42 · 12611 阅读 · 0 评论 -
Pregel(图计算)技术原理
图计算简介图结构数据:许多大数据都是以大规模图或网络的形式呈现。许多非图结构的大数据,也常常会被转换为图模型后进行分析。图数据结构很好地表达了数据之间的关联性。关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。传统图计算解决方案的不足之处:很多传统的图计算算法都存在以下几个典型问题:常常表现出比较差的内存访问局部...原创 2018-06-02 14:32:51 · 45543 阅读 · 11 评论 -
Flink技术原理
Flink简介Flink概述:Flink是一个批处理和流处理结合的统一计算框架,其核心是一个提供了数据分发以及并发化计算的流数据处理引擎。它的最大亮点是流处理,是业界最顶级的开源流处理引擎。Flink与Storm类似,属于事件驱动型实时流系统。Flink特点:Streaming-first、流处理引擎。Fault-tolerant,容错,可靠性,checkpoint...原创 2018-06-02 14:35:51 · 18310 阅读 · 3 评论 -
Loader技术原理
Loader简介什么是Loader:Loader是实现FusionInsight HD与关系型数据库、文件系统之间交互数据和文件的数据加载工具。基于开源Sqoop研发,做了大量优化和扩展。提供可视化向导式的作业配置管理界面;提供定时调度任务,周期性执行Loader作业;在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。Loader的特点:图形化...原创 2018-06-02 14:36:51 · 13066 阅读 · 10 评论 -
HDFS常用Shell命令和基础编程开发
HDFS常用Shell命令Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。HDFS有三种shell命令方式:hadoop fs :适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统。Hadoop dfs:只能适用与HDFS文件系统。hdfs dfs:跟hadoop dfs命令作用...原创 2018-06-09 17:38:01 · 2431 阅读 · 0 评论 -
HBase常用Shell命令和基础开发
HBase常用Shell命令HBase中用create命令创建表:create 'Student','Num','Name','Sex','Age'运行结果如下:hbase(main):008:0> create 'Student','Num','Name','Sex','Age'0 row(s) in 2.4910 seconds=> Hbase::T...原创 2018-06-12 12:01:25 · 867 阅读 · 0 评论 -
ZooKeeper技术原理
ZooKeeper简介ZooKeeper概述:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。ZooKeeper分布式服务框架主要是用来解决分布式应用中经常遇到的一些数据管理问题...原创 2018-06-04 11:35:31 · 1780 阅读 · 0 评论 -
Hadoop基础技术概述
大数据处理技术发展趋势传统数据处理系统面临的问题: 图:传统数据处理系统面临的问题如上图:传统数据处理系统面临的问题主要有:海量数据的存储成本。有限的扩展能力。数据资产对外增值。大数据处理能力的不足。单一数据源。流式数据处理缺失。数据处理技术演进趋势:图:数据处理演进趋势数据处理技术演进的趋势:完全共享模式存储方式:磁盘。特点:...原创 2018-05-20 14:55:10 · 2087 阅读 · 0 评论 -
HDFS技术原理
HDFS概述及应用场景HDFS概述:HDFS(Hadoop Distributed File System)基于Google发布的GFS论文设计开发,运行在通用硬件平台上的分布式文件系统。其除具有其他分布式文件系统的相同特性外,还有自己特有的特性:高容错性:认为硬件总是不可靠的。高吞吐量:为大量数据访问的应用提供高可用吞吐量支持。大文件存储:支持存储TB-PB级别的数据。...原创 2018-05-20 14:59:42 · 4590 阅读 · 3 评论 -
MapReduce技术原理
MapReduce基本介绍MapReduce基本定义:MapReduce是面向大数据并行处理的计算模型、框架和平台。它包含以下三层含义:MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。MapReduce是一个并行计算与运行软件框架(Software Framework)。MapReduce是一个并行程序设计模型与方法(...原创 2018-05-20 15:01:37 · 5650 阅读 · 0 评论 -
Yarn技术原理
Yarn的基本介绍Yarn基本定义:Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来的巨大的好处。YARN在产品中的位置:图:Yarn在Fusio...原创 2019-11-16 17:02:07 · 3812 阅读 · 0 评论 -
Hadoop的优化与发展
Hadoop1.0的缺陷与不足:Hadoop1.0的核心组件(仅指MapReduce和HDFS,不包括Hadoop生态系统内的Pig、Hive、HBase等其他组件),主要存在以下不足:抽象层次低,需人工编码表达能力有限开发者自己管理作业(Job)之间的依赖关系难以看到程序整体逻辑执行迭代操作效率低资源浪费(Map和Reduce分两阶段执行)实时性差(适合批处理,不支持实时交...原创 2018-05-20 15:05:06 · 2787 阅读 · 0 评论 -
HBase技术原理
HBase基本介绍BigTable简介:BigTable是一个分布式存储系统,BigTable起初用于解决典型的互联网搜索问题。BigTable是一个分布式存储系统。利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据。使用谷歌分布式文件系统GFS作为底层数据存储。采用Chubby提供协同服务管理。可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性...原创 2018-05-20 15:09:44 · 4215 阅读 · 0 评论 -
NoSQL数据库
NoSQL简介NoSQL概念:图;NoSQL概念的演变NoSQL最初表示的“反SQL”运动,用新型的非关系型数据库取代关系型数据库。现在NoSQL(Not only SQL)表示关系和非关系型数据库各有优缺点,彼此都无法互相取代。NoSQL的特点:通常,NoSQL数据库具有以下几个特点:灵活的可扩展性。灵活的数据模型与云计算紧密融合。现在有很多公司都...原创 2018-05-20 15:13:36 · 3298 阅读 · 0 评论 -
云数据库
云数据库概述云计算是云数据库兴起的基础:云计算的概念:通过整合、管理、调配分布在网络各处的计算资源,通过互联网以统一界面,同时向大量的用户提供服务。云计算特点:按需服务,随时服务,通用型,高可靠性,极其廉价,超大规模,虚拟化,高扩展性。云数据库的概念:云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大...原创 2018-05-20 15:29:14 · 21616 阅读 · 4 评论 -
Flume技术原理
Flume简介Flume概述:Flume是开源日志系统。是一个分布式、可靠性和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,FLume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力。Flume是什么?Flume是流式日志采集工具,FLume提供对数据进行简单处理并且写到各种数据接收方(可定制)的能力,Flume提供从本地文件(s...原创 2019-11-16 16:59:39 · 7621 阅读 · 0 评论 -
Kafka技术原理
Kafka简介Kafka概述:Kafka由 linked-in 开源 。kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)。Kafka是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可以在廉价的PC Server上搭建起大规模消息系统。Kafka的特性:高吞吐量、低延迟...原创 2018-06-04 11:33:31 · 3034 阅读 · 0 评论 -
MapReduce编程实践
编程环境准备:要在 Eclipse 上编译和运行 MapReduce 程序,需要安装 hadoop-eclipse-plugin,可下载 Github 上的 hadoop2x-eclipse-plugin。下载后,将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar 复制到 Eclipse 安装目录的 plugins 文件夹中,运行 ecl...原创 2018-06-17 09:10:04 · 7294 阅读 · 0 评论