- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 分布式数据集RDD经典集锦
RDD是spark的核心组成,想要理解spark,就必须了解RDD。那么RDD具有什么样的特性,怎么来创建和应用呢?
2017-01-20 10:45:27 1081
原创 Spark的函数式编程
Spark是近年来发展较快的分布式并行数据处理框架,了解和掌握spark对于学习大数据有着至关重要的意义。但是spark依赖于函数单元,它的函数编程过程是怎样的呢?我们怎么来应用呢?
2017-01-19 15:04:47 1720
原创 在Impala 和Hive里进行数据分区(1)
进行数据分区将会极大的提高数据查询的效率,尤其是对于当下大数据的运用,是一门不可或缺的知识。那么数据怎么创建分区呢?数据怎样加载到分区呢?
2017-01-12 11:06:20 3484
原创 Hive和Impala加载和存储数据功能曝光
Hive与Impala都是构建在Hadoop之上的数据查询工具,那么在实际的应用中,它们是如何加载和存储数据的呢?
2016-12-28 14:54:23 1334
原创 Sqoop新品来了
Sqoop尽管稳定的应用于生产环境很多年,但是它自身存在的一些缺陷给实际操作带来了不便。Sqoop2便成为了研究使用的对象,那么Sqoop2有什么优势呢?
2016-12-26 15:06:51 1255
原创 为什么使用Hive和Impala
Impala 与Hive都是构建在Hadoop之上的数据查询工具,但是各有不同侧重,那么我们为什么要同时使用这两个工具呢?单独使用Hive或者Impala不可以吗?
2016-12-20 14:56:49 3957
原创 关系型数据库导入导出绝招出炉
Sqoop作为数据传输的工具,对于Hadoop与传统数据库之间数据的传输起着桥梁作用,那么到底如何导入导出数据呢?
2016-12-19 13:31:12 1792
原创 Hadoop核心组件:四步通晓HDFS
HDFS作为Hadoop的核心组件,掌握和了解HDFS对于学习Hadoop有着重要的意义,本文通过四个步骤全面阐述HDFS的操作应用,是学习Hadoop人员不得不看的经典分享。
2016-12-16 11:28:15 1812
原创 Sqoop导入关系型数据库-解密Sqoop
Sqoop作为Hadoop与传统数据库之间的桥梁,对于数据的导入导出有着重要作用。通过对Sqoop基本语法以及功能的阐述,深刻解密Sqoop的作用和价值。
2016-12-15 13:51:30 1750
原创 Hadoop项目规划:硬件
规划硬件我们主要介绍两个方面:一个是Master怎么规划,一个是Slave怎么规划,选择是不一样的。其他规划诸如容量以及操作系统的选择也会简单介绍,对于了解Hadoop的操作环境有着重要帮助作用。
2016-12-13 15:01:14 4143
原创 集成Hadoop到数据中心
集成Hadoop到数据中心主要通过有Hadoop的数据中心与没有Hadoop的数据中心之间对比,以及使用Hadoop之后带来的数据流的一些改变等方面进行阐述,对于直观了解Hadoop的应用有着一定作用。
2016-12-12 14:36:37 3648 2
原创 数据分析:Hive、Pig和Impala
主要是针对Hive、Pig和Impala各自的特点、应用、区分,以及与传统数据库的区别来进行阐述,对于深入了解数据分析工具在实际中的运用有着重要作用。
2016-12-09 14:34:11 7956
原创 数据集成:Flume和Sqoop
本文主要阐述了Flume和sqoop的功能、架构以及实际应用,中间结合了一些实际的使用例子,读起来更直白易懂,对于了解和学习数据集成的人员来说会有很大作用。
2016-12-08 14:42:32 11524
原创 Hadoop数据存储—Hbase
本文主要描述了hbase的特点,hbase与传统数据库的区别,以及为什么我们会使用hbase,主要阐述了个人对于hbase的一些认知和理解。
2016-12-07 15:14:03 3671
原创 mapreduce和spark的原理及区别
本文主要根据自己的经验对于mapreduce和spark的原理及区别进行了一个详细的描述,对于了解和学习mapreduce和spark有着一定作用
2016-12-06 15:14:34 29740
原创 HDFS
文章主要介绍了HDFS这个分布式文件系统与传统文件系统的差异,它在使用中的特点,以及如何存储数据等,对于了解和学习HDFS有着重要作用。
2016-12-02 16:28:59 1034
原创 hadoop基础概念之Hadoop核心组件
本文通过Hadoop组件,大数据处理,Hadoop核心三个方面层层递进,引出Hadoop和组件作用,对于了解和认知Hadoop具有一定的指导作用。
2016-12-01 15:48:50 10710
原创 初识Apache Hadoop
Apache Hadoop从概念,事实,使用,供应商集成,发行版等各个方面描述了Hadoop的基本知识,对于大家了解和认知Hadoop意义重大
2016-11-28 14:47:57 1005
原创 每个数据工程师都应该了解和使用的10 个 ChatGPT 提示
提示 1:我希望你充当数据工程师并解释数据仓库和数据湖之间的区别。提示 2:我希望你充当数据工程师并解释不同类型的数据管道。提示3:我希望你充当数据工程师并解释不同类型的数据存储系统。提示 4:我希望你充当数据工程师并解释不同类型的数据处理系统。提示5:实时处理系统和流式数据处理系统有什么区别?提示6:我希望你充当数据工程师并解释不同类型的数据可视化工具。提示7:我希望你充当数据工程师并解释不同类型的数据安全措施。提示 8:描述数据摄取的过程及其在数据工程中的重要性。……
2023-09-14 13:27:45 164
原创 使用Apache Doris自动同步整个 MySQL/Oracle 数据库进行数据分析
Flink-Doris-Connector 1.4.0 允许用户一步将包含数千个表的整个数据库(MySQL或Oracle )摄取到Apache Doris(一种实时分析数据库)中。通过内置的Flink CDC,连接器可以直接将上游源的表模式和数据同步到Apache Doris,这意味着用户不再需要编写DataStream程序或在Doris中预先创建映射表。
2023-09-07 11:15:24 3371 2
原创 如何免费获取CDH集群技术支持
CDH拥有全球70% 的Hadoop用户,在国内也拥有庞大的用户群体。由于Cloudera 和Hortonworks 合并后厂商政策调整,不再更新、不再免费、不再提供服务,众多企业用户生产集群面临着进退两难的窘境和未知的技术风险。碧茂科技作为国内最早提供CDH培训和技术服务的第三方平台服务商,一路伴随CDH成长发展,深怀对产品的感情,深感对用户的责任。自厂商停止服务以来,不断收到老学员和用户的反馈,决定公益免费提供CDH集群巡检以及60天远程技术支持服务。用户可自行申请。
2023-09-07 09:58:26 691
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人