关闭
当前搜索:

TurboDX

应用场景 当需要使用从一个库数据抽取、清洗到另一个库中,需要使用到ETL也就是kettle数据采集工具,但是KETTLE是CS架构的,并且配置流程,配置任务还是比较复杂的,比如配置一个增量更新,那么就需要使用触发器,时间戳,MD5等方式,配置繁琐,下面介绍数贝的一歀数据交换平台,基于BS架构的,配置方便简洁,但是如果投入生产,是需要收费的! 操作步骤2. TurboDX2.1 TurboDX资源...
阅读(2897) 评论(0)

TongDXP

应用场景 当需要使用从一个库数据抽取、清洗到另一个库中,需要使用到ETL也就是kettle数据采集工具,但是KETTLE是CS架构的,并且配置流程,配置任务还是比较复杂的,比如配置一个增量更新,那么就需要使用触发器,时间戳,MD5等方式,配置繁琐,下面介绍东方通的一歀数据交换平台,基于BS架构的,配置方便简洁,但是如果投入生产,是需要收费的! 操作步骤 1. TongDXP...
阅读(2888) 评论(0)

Spark面试

1、简答说一下hadoop的map-reduce编程模型首先map task会从本地文件系统读取数据,转换成key-value形式的键值对集合使用的是hadoop内置的数据类型,比如longwritable、text等将键值对集合输入mapper进行业务处理过程,将其转换成需要的key-value在输出之后会进行一个partition分区操作,默认使用的是hashpartitioner,可以通过重写...
阅读(12943) 评论(0)

Spark笔试

1.Spark 的四大组件下面哪个不是 (D ) A.Spark Streaming B Mlib C Graphx D Spark R2.下面哪个端口不是 spark 自带服务的端口 (C ) A.8080 B.4040 C.8090 D.180803.spark 1.4 版本的最大变化 (B ) A spark sql Release 版本 B 引入 Spark R C DataF...
阅读(12910) 评论(0)

Shark

Shark自己也没用过,不太熟悉,只了解它的背景,现在已经被Spark淘汰,也不去熟悉它了! Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。最早来说,...
阅读(12895) 评论(0)

SparkR

1. sparkR的简介 SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中,SparkR实现了分布式的data frame,支持类似查询、过滤以及聚合的操作(类似于R中的data frames:dplyr),但是这个可以操作大规模的数据集。 2. 使用spark的两种方式1.在sparkR的shell中交互式使用sparkR2...
阅读(12883) 评论(0)

Spark Streaming

1. Spark Streaming介绍 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后...
阅读(13063) 评论(0)

Spark GraphX

1. Spark GraphX应用背景 Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。 众所周知,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Spark...
阅读(12893) 评论(0)

Spark MLlib

1. 机器学习 机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。 机器学习强调三个关键词:算法、经验、性能,其处理过程如上图所示。在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算法来重新建立模型,再次进行...
阅读(12895) 评论(0)

Spark SQL

1. 背景 Spark 1.0版本开始,推出了Spark SQL。 其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。 最早来说,Hive的诞生,主要是因为要让那些不熟悉Java...
阅读(12928) 评论(0)

Spark Core组件:RDD、DataFrame和DataSet

1. 介绍 spark生态系统中,Spark Core,包括各种Spark的各种核心组件,它们能够对内存和硬盘进行操作,或者调用CPU进行计算。 spark core定义了RDD、DataFrame和DataSet spark最初只有RDD,DataFrame在Spark 1.3中被首次发布,DataSet在Spark1.6版本中被加入。 2. RDD RDD:Spark的核心概念是...
阅读(12897) 评论(0)

Spark Core介绍以及架构

应用场景 Apache Spark 是加州大学伯克利分校的 AMP Labs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala、Java、Python)提供支持。其一栈式的设计特点使得我们的学习和维护成本大大地减少,而且其提供了很好的容错解决方案。 操作步骤 1....
阅读(12894) 评论(0)

Hadoop面试题

1.Hadoop集群可以运行的3个模式? 单机(本地)模式 伪分布式模式 全分布式模式2.单机(本地)模式中的注意点? 在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。这里同样没有DFS,使用的是本地文件系统。单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。3.伪分布模式中的注意点? 伪分布式(Pseudo)适用于开发和测试环境,...
阅读(17579) 评论(0)

E-MapReduce大数据平台

1. 产品介绍 E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、Kafka、Storm,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 2. 产品优势3. 产品功能4. 应用场景4.1 离线数据处理4.2 Ad hoc数据分析4.3 海量数据在线服务4.4 流式数据处理...
阅读(18782) 评论(0)

Transwarp大数据平台

1 Transwarp Inceptor简介 TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。 TranswarpInceptor可提供完整的SQL支持,支持主流的SQL模块化扩展,兼...
阅读(18824) 评论(0)

Fusion Insight大数据平台介绍

1. 概述 华为Fusion Insight是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层,类似于开源的CDH,HDP等大数据平台。 2. Fusion Insight框架介绍 Fusion Insight 组成结构图 Fusion Insight解决方案由4个子产品Fusion Insight HD、Fusio...
阅读(18846) 评论(0)

H3C大数据产品介绍

1 产品简介 H3C 大数据平台(Data Engine)采用开源社区 Apache Hadoop2.0 和 MPP 分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C 大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI 系...
阅读(18624) 评论(0)

Storm

应用场景 1.信息流处理 Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。即 Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。2.连续计算 Storm可进行连续查询并把结果即时反馈给客户端。比如把 Twitter 上的热门话题发送到浏览器中。3.分布式远程调用 Storm 可用来并行处理密集查询。Storm 的拓扑结构是一个等待调用信息的分布函数,当它...
阅读(18792) 评论(0)

Mahout(聚类算法)

应用场景 Mahout 是一个基于 Hadoop 的机器学习和数据挖掘的分布式计算框架,封装实现了大量数据挖掘经典算法,为 Hadoop 开发人员提供了数据建模的标准,从而大大降低了大数据应用中并行挖掘产品的开发难度。在掌握了 Mahout 之后,Hadoop 开发人员可以直接调用相关算法模型的接口,方便、快捷地创建智能应用程序,从而大幅提升商业智能软件的大数据分析能力。 操作步骤1.引言...
阅读(18801) 评论(0)

oozie

应用场景 Apache Oozie 是用于 Hadoop 平台的一种工作流调度引擎。该框架使用 Oozie 协调器促进了相互依赖的重复工作之间的协调,您可以使用预定的时间或数据可用性来触发 Apache Oozie。您可以使用 Oozie bundle 系统提交或维护一组协调应用程序。作为本练习的一部分,Oozie 运行了一个 Apache Sqoop 作业,以便在 MySQL 数据库中的数据上...
阅读(18797) 评论(0)
170条 共9页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:13709437次
    • 积分:23235
    • 等级:
    • 排名:第350名
    • 原创:170篇
    • 转载:0篇
    • 译文:0篇
    • 评论:9条
    博客专栏
    欢迎交流
    QQ群:365688533
    QQ :757661238
    VX :bingoxubin