- 博客(4)
- 资源 (17)
- 收藏
- 关注
转载 hbase数据迁移
一、前言HBase数据迁移是很常见的操作,目前业界主要的迁移方式主要分为以下几类: 图1.HBase数据迁移方案 从上面图中可看出,目前的方案主要有四类,Hadoop层有一类,HBase层有三类。下面分别介绍一下。二、Hadoop层数据迁移2.1 方案介绍Hadoop层的数据迁移主要用到DistCp(Distributed Copy), 官方描述是:DistCp...
2018-09-17 13:55:22 235
转载 Spark 序列化问题全解
本文主要从以下三个方面解释Spark 应用中序列化问题 。 1、Java序列化含义。 2、Spark代码为什么需要序列化。 3、如何解决Spark序列化问题。 1、Java序列化含义。Spark是基于JVM运行的进行,其序列化必然遵守Java的序列化规则。序列化就是指将一个对象转化为二进制的byte流(注意,不是bit流),然后以文件的方式进行保存或通过网络传输,等待被反序列化读取出...
2018-09-17 11:08:02 1517
原创 Spark:Driver和Job,Stage概念
Driver Program, Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单,对于初学者很难正确理解他们的涵义。官方解释如下(http://spark.apache.org/docs/latest/cluster-overview.html): Driver Program: 运行应用程序的main()函数并创建SparkContext的过程...
2018-09-15 18:36:41 1095
转载 spark : foreachpartition
spark的运算操作有两种类型:分别是Transformation和Action,区别如下:Transformation:代表的是转化操作就是我们的计算流程,返回是RDD[T],可以是一个链式的转化,并且是延迟触发的。Action:代表是一个具体的行为,返回的值非RDD类型,可以一个object,或者是一个数值,也可以为Unit代表无返回值,并且action会立即触发job的执行。Tr...
2018-09-15 17:18:23 2080
Twisted-18.4.0-cp35-cp35m-win_amd64.whl
2018-06-08
pythonMySQL-mysqlclient-1.3.12-cp35-cp35m-win_amd64.whl
2018-06-08
sqoop-1.4.6.tar.gz
2018-04-10
hadoop-2.5.0-src.tar.gz
2018-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人