2019年10月_SunnyRivers

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark之Row

前言一直在说Dataframe是Dataset的特列，DataFrame=Dataset[Row]，可Row是什么东西呢？什么是Row顾名思义：就是一行数据Row是org.apache.spark.sql包下的一个特质简单的理解：Row是一个类型，跟Car、Person这些的类型一样，所有的表结构信息都用Row来表示。什么时候会用到这个Row呢？煮个例子通过读取文件创建一个Dat...

2019-10-30 20:18:23 17261 5

原创 DataSet/DataFrame性能比RDD高？

前言我们都知道Dataset/DataFrame的运行流程如下：Parse SQL -> Analyze Logical Plan -> Optimize Logical Plan -> Generate Physical Plan -> Prepareed Spark Plan -> Execute SQL -> Generate RDD流程图如下：...

2019-10-30 19:11:15 1353

原创 RDD、DataFrame和Dataset

前言其实这三个现在完全没有必要再去对比了，以后我们只要会用Dataset就足够了。这里的对比完全就是一种类似于课外资料的东西，或者是应付面试等。如果仅仅是作为应用型的开发人员，只要会Dataset足以。当然，要想成为Spark专家，那么RDD是必须要研究透彻。RDDRDD是Spark建立之初的核心API，是一种有容错机制的特殊集合。RDD是不可变分布式弹性数据集，在Spark集群中可跨节点...

2019-10-30 17:36:11 269

原创 SparkSql性能测试案例

前言鉴于上一次SparkSql引起的那场灾难后，我决定做一个小小的测试：用不同的方法统计数量数据集准备infoA:13111111111,Tom13222222222,Jack13333333333,Lily13444444444,Lucy13555555555,Allen13666666666,White13777777777,Rivers13888888888,John...

2019-10-30 11:33:04 1012

官网的话什么是ShuffleIn Spark, data is generally not distributed across partitions to be in the necessary place for a specific operation.During computations, a single task will operate on a single partiti...

2019-10-29 19:36:15 2701

原创 Sql根据不同条件统计总数

前言经常会遇到根据不同的条件统计总数的问题，一般有两种写法：count和sum都可以数据准备：方法一：Count代码：SELECT COUNT( CASE WHEN age > 20 AND age < 25 THEN 1 ELSE NULL END ) AS cnt0, COUNT( CASE WHEN age >= ...

2019-10-29 16:48:28 35832

原创 SparkSql引起的一场灾难

发生灾难的原因sql(sqlText = "select tel_number from TableA") .filter("tel_number not in (select serv_number from tableB)") .agg(count($"serv_number")) .show()说明：select serv_number from...

2019-10-28 19:00:30 537

原创 Spark读Hive分区表报错：Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist

第一个

2019-10-28 10:44:29 1904

原创 Flink读写Mysql（Java版）

必须得创建好Mysql表CREATE TABLE student (name VARCHAR(20),age INT);读写代码创建实体类public class Student { private String name; private int age; public Student(String name, int age) { th...

2019-10-24 18:58:26 2518

原创 Flink 读取 Mysql

前言离线分析一直用的Spark，而且感觉很不错的。不过在实时计算Flink显然比Spark更具有优势，而且Flink也支持离线分析，虽然还没有Spark这么强大，但是相信不远的将来完全在离线分析方面也有能力与其抗衡，因此测试了一下Flink to Mysql代码package datasetimport org.apache.flink.api.common.typeinfo.Basic...

2019-10-23 17:10:44 2931

原创案例

简化需求一张hive表，有三个字段id,score,date，分别代表用户，信用得分，日期。格式如下：1,50,2019092,60,2019091,30,2019102,62,201910每个月根据用户的消费情况得出其信用得分，但是有个前提是，本月的得分不能低于上月需求分析也就是计算出本月得分后和上个月的得分进行比较，当本月得分小于上个月得分，则用上个月得分替代。可怎么实现需求...

2019-10-14 16:41:53 185