大数据
ErbaoLiu
学习 分享
展开
-
大数据生态HA(全)
目录Hadoop HANameNode FederationHBase HAStorm HAFlink HA先安装好ZooKeeper。Hadoop HA1、集群规划host HDFS Yarn ZK HA bigdata111 NameNode SecondaryNameNode ResourceManager QuorumPeerMain bigdata112 DataNode...原创 2020-05-28 18:13:45 · 517 阅读 · 0 评论 -
Hive集成关系型数据库(MySQL、PostgreSQL)
本文主要目的是基于HDP2.6.3集群,搭建Hive与PostgreSQL数据库集成,以便能够在Hive中直接对PostgreSQL进行较为复杂的查询,比如条件查询,查询排序,分组统计查询,模糊查询,关联查询等。为了更好的完成最终集成环境搭建,做了一些其他有益的集成测试,比如基于hive-jdbc-handler-2.3.6.jar版本集成MySQL数据库等。 H...原创 2019-09-29 01:28:26 · 3165 阅读 · 1 评论 -
hbase在hdfs上的详细目录结构
hbase目录结构如图: 列出/hbase目录下的所有目录和文件,结构如下:drwxr-xr-x - root supergroup 0 2018-10-27 18:26 /hbase/.tmpdrwxr-xr-x - root supergroup 0 2018-10-27 18:26 /hbase/.tmp/datadrwxr-xr...原创 2018-10-27 12:37:41 · 7501 阅读 · 0 评论 -
Eclipse+Spring MVC+HDFS文件云存储源码解析
一、文件存储策略1、同步存储基本步骤:(1)上传文件;(2)检查文件(文件大小和类型等),对符合要求的文件存储到本地文件系统(LFS);(3)存储LFS成功的文件同步到分布式文件系统(HDFS);(4)存储HDFS成功的文件,在LFS中创建新的空文件作为上传成功标记;(5)页面展示LFS存储成功的文件列表; 以上步骤是按顺序执行的,有些不足,例如:第(...原创 2018-08-24 16:16:55 · 1004 阅读 · 0 评论 -
Spark MLlib中协同过滤之交替最小二乘法ALS原理与实践
请先阅读leboop发布的博文《Apache Mahout之协同过滤原理与实践》。 基于用户和物品的协同过滤推荐都是建立在一个用户-物品评分矩阵(user-item-score)展开的,其本质是利用现有数据填充矩阵的缺失项(missing entries),也就是预测评分。基于用户的协同过滤通过该评分矩阵来度量用户间的相似度(余弦相似度,距离相似度,皮尔森相似度...原创 2018-08-16 18:34:23 · 4935 阅读 · 10 评论 -
Spark MLlib交替最小二乘法ALS源码解析
请先阅读leboop发布的博文《Spark MLlib协同过滤之交替最小二乘法ALS原理与实践》。核心代码如下://定义ALS,参数初始化val als = new ALS().setRank(50) .setMaxIter(10) .setRegParam(0.01) .setUserCol("userId") .setItemCol(...原创 2020-04-14 08:27:41 · 527 阅读 · 0 评论 -
Spark 2.3.0 Structured Streaming详解
一、什么是Structured Streaming 结构化流(Structured Streaming)是一个建立在Spark SQL引擎之上可扩展且容错的流处理引擎。你可以使用与静态数据批处理计算相同的方式来表达流计算。当不断有流数据到达时,Spark SQL引擎将会增量地、连续地计算它们,然后更新最终的结果。最后,系统通过检查点和预写日志的方式确保端到端只执行一次的容错保证。...原创 2018-08-13 21:29:19 · 9931 阅读 · 1 评论 -
Spark 2.3.0 用户自定义聚合函数UserDefinedAggregateFunction和Aggregator
Spark 2.3.0 用户自定义聚合函数UserDefinedAggregateFunction和Aggregator 一、无类型的用户自定于聚合函数(Untyped User-Defined Aggregate Functions)实现无类型的用户自定于聚合函数需要继承抽象类UserDefinedAggregateFunction,并重写该类的8个函数。我们以计算数据类型为Double...原创 2018-08-11 17:55:21 · 3760 阅读 · 2 评论 -
Spark DataSet和RDD与DataFrame转换成DataSet
一、什么是DataSet DataSet同RDD和DataFrame一样,也是Spark的一种弹性分布式数据集。它是Spark 1.6增加的新接口。我们可以从JVM的对象构造一个DataSet,然后使用map,flatMap,filter等等这样的函数式变换操作它。 二、创建DataSet 首先需要导入Spark Core、Spark SQL、Hadoo...原创 2018-08-10 23:54:13 · 2732 阅读 · 0 评论 -
Spark DataFrame及RDD与DataSet转换成DataFrame
一、什么是DataFrame DataFrame和RDD一样,也是Spark的一种弹性分布式数据集,它是一个由列组成的数据集,概念上等同于关系型数据库中的一张表。DataFrame可以从非常宽泛的数据源中的构建,比如结构化的数据文件,Hive中的表,外部数据库,或者已经创建好的RDDs等等。在Scala和Java中,DataFrame由行数据集表示。在Scala API中,Dat...原创 2018-08-10 21:54:50 · 2277 阅读 · 0 评论 -
Spark RDD和DataSet与DataFrame转换成RDD
Spark RDD和DataSet与DataFrame转换成RDD一、什么是RDD RDD是弹性分布式数据集(resilient distributed dataset) 的简称,是一个可以参与并行操作并且可容错的元素集合。什么是并行操作呢?例如,对于一个含4个元素的数组Array,元素分别为1,2,3,4。如果现在想将数组的每个元素放大两倍,Java实现通常是遍历数组的每个...原创 2018-08-10 15:29:18 · 4550 阅读 · 0 评论