自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SunnyRivers

别以为自己到了极限,那可能只是别人的起点!

  • 博客(11)
  • 资源 (9)
  • 收藏
  • 关注

原创 Spark之Row

前言一直在说Dataframe是Dataset的特列,DataFrame=Dataset[Row],可Row是什么东西呢?什么是Row顾名思义:就是一行数据Row是org.apache.spark.sql包下的一个特质简单的理解:Row是一个类型,跟Car、Person这些的类型一样,所有的表结构信息都用Row来表示。什么时候会用到这个Row呢?煮个例子通过读取文件创建一个Dat...

2019-10-30 20:18:23 17261 5

原创 DataSet/DataFrame性能比RDD高?

前言我们都知道Dataset/DataFrame的运行流程如下:Parse SQL -> Analyze Logical Plan -> Optimize Logical Plan -> Generate Physical Plan -> Prepareed Spark Plan -> Execute SQL -> Generate RDD流程图如下:...

2019-10-30 19:11:15 1353

原创 RDD、DataFrame和Dataset

前言其实这三个现在完全没有必要再去对比了,以后我们只要会用Dataset就足够了。这里的对比完全就是一种类似于课外资料的东西,或者是应付面试等。如果仅仅是作为应用型的开发人员,只要会Dataset足以。当然,要想成为Spark专家,那么RDD是必须要研究透彻。RDDRDD是Spark建立之初的核心API,是一种有容错机制的特殊集合。RDD是不可变分布式弹性数据集,在Spark集群中可跨节点...

2019-10-30 17:36:11 269

原创 SparkSql性能测试案例

前言鉴于上一次SparkSql引起的那场灾难后,我决定做一个小小的测试:用不同的方法统计数量数据集准备infoA:13111111111,Tom13222222222,Jack13333333333,Lily13444444444,Lucy13555555555,Allen13666666666,White13777777777,Rivers13888888888,John...

2019-10-30 11:33:04 1012

原创 Spark中的Shuffle算子

官网的话什么是ShuffleIn Spark, data is generally not distributed across partitions to be in the necessary place for a specific operation.During computations, a single task will operate on a single partiti...

2019-10-29 19:36:15 2701

原创 Sql根据不同条件统计总数

前言经常会遇到根据不同的条件统计总数的问题,一般有两种写法:count和sum都可以数据准备:方法一 :Count代码:SELECT COUNT( CASE WHEN age > 20 AND age < 25 THEN 1 ELSE NULL END ) AS cnt0, COUNT( CASE WHEN age >= ...

2019-10-29 16:48:28 35832

原创 SparkSql引起的一场灾难

发生灾难的原因sql(sqlText = "select tel_number from TableA") .filter("tel_number not in (select serv_number from tableB)") .agg(count($"serv_number")) .show()说明:select serv_number from...

2019-10-28 19:00:30 537

原创 Spark读Hive分区表报错:Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist

第一个

2019-10-28 10:44:29 1904

原创 Flink读写Mysql(Java版)

必须得创建好Mysql表CREATE TABLE student (name VARCHAR(20),age INT);读写代码创建实体类public class Student { private String name; private int age; public Student(String name, int age) { th...

2019-10-24 18:58:26 2518

原创 Flink 读取 Mysql

前言离线分析一直用的Spark,而且感觉很不错的。不过在实时计算Flink显然比Spark更具有优势,而且Flink也支持离线分析,虽然还没有Spark这么强大,但是相信不远的将来完全在离线分析方面也有能力与其抗衡,因此测试了一下Flink to Mysql代码package datasetimport org.apache.flink.api.common.typeinfo.Basic...

2019-10-23 17:10:44 2931

原创 案例

简化需求一张hive表,有三个字段id,score,date,分别代表用户,信用得分,日期。格式如下:1,50,2019092,60,2019091,30,2019102,62,201910每个月根据用户的消费情况得出其信用得分,但是有个前提是,本月的得分不能低于上月需求分析也就是计算出本月得分后和上个月的得分进行比较,当本月得分小于上个月得分,则用上个月得分替代。可怎么实现需求...

2019-10-14 16:41:53 185

SparkMLlib机器学习(黄美玲和王晓华版两本)

SparkMLlib机器学习黄美玲版和SparkMLlib机器学习实战王晓华版,都带目录,很方便阅读,希望能帮助到大家

2018-10-17

CDH-5.13.1安装文档

亲测CDH-5.13.1,希望能够帮助想要使用CDH的同学,文档中有不懂的可以留言

2018-09-03

高等数学(同济大学出版)上下册(高清,带目录)

学习人工智能、大数据高数是必备的专业技能,同济大学出版的高等数学一直是很多高校指定的专用教材

2018-04-18

Spark快速大数据分析和深入解析Spark内核架构设计与实现原理

有这两本书,的确可以把spark技术研究透彻,真心感谢这两位作者

2018-03-28

java最经典的笔记

这是我见过java总结的很屌的培训机构的老师,感谢阳哥笔记,让人对java基础的知识有了更加深刻的理解

2018-02-08

搜题功能,图片文字识别技术

模仿作业帮、猿题库等含有搜题功能的app,自定义相机,图片识别技术的实现,超级简单

2018-01-03

Dialog的正确使用方式

学会如何正确使用Dialog,以及更规范的Dialog模板,和创建的方式。

2017-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除