Scala 重难点总结 / 类似于 Java 的 Object// AnyVal 类型的子类// AnyRef 类型的子类// Nothing 表示抛出异常 或者 集合为空,是最底层的子类def test6():Int = {if(1 < 0) 1 else throw new Exception } // 实际会返回 Nothing// None 是对象 不是类,它的类型是 Option[Nothing]
Spark中的Join操作及问题解决 目录一.数据准备二.Spark Core中的Join三.Spark SQL中的Join一.数据准备grade.txt:(id, grade)1,751,861,642,76address.txt:(id, address)1,shanghai1,beijing二.Spark Core中的Join需要把每行转换成键值对的形式。val grade = sc.textFile("D:\\study\\ideaProject\\first_maven\\input\\grade.txt"
一文讲透Spark中的分区和分桶的不同 目录一.数据准备二.Spark Core中的分区三.Spark SQL中的分区和分桶(用HQL)一.数据准备partition.txt:b,2c,1b,1d,3a,2b,1二.Spark Core中的分区val rdd = sc.textFile("D:\\study\\workspace\\spark-sql-train\\input\\partition.txt") .map(_.split(",")).map(x => (x(0), x(1)))rdd.saveAs
Spark中的checkpoint机制 目录一.Spark Core中的checkpoint二.Spark Streaming中的checkpoint三.Spark Structured Streaming中的checkpoint一.Spark Core中的checkpoint二.Spark Streaming中的checkpoint三.Spark Structured Streaming中的checkpoint
Spark用户行为日志分析——离线项目整理 目录一.读取数据源二.Spark SQL进行ETL三.数据落地到HBase一.读取数据源用户行为日志:110.85.18.234 - - [30/Jan/2019:00:00:21 +0800] "GET /course/list?c=cb HTTP/1.1" 200 12800 "www.imooc.com" "https://www.imooc.com/course/list?c=data" - "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/5
Spark用户行为日志分析——实时项目整理 目录一.数据源二.数据收集Flume三.消息队列Kafka四.Spark Streaming数据分析五.Structured Streaming数据分析六.Echarts数据可视化一.数据源二.数据收集Flume三.消息队列Kafka四.Spark Streaming数据分析五.Structured Streaming数据分析六.Echarts数据可视化...
Kafka容错性测试 目录一.创建3个配置文件二.启动zk和kafka三.创建topic、消费者、生产者四.三个broker五.kill掉一个,依然能工作六.kill掉两个,依然能工作一.创建3个配置文件server.properties:broker.id=0listeners=PLAINTEXT://hadoop000:9092log.dirs=/home/hadoop/app/tmp/kafka-logserver-1.properties:broker.id=1listeners=PLAINTEXT:/
Spark Streaming官网重点整理 目录一.Spark Streaming1.Input DStreams and Receivers2.Receiver Reliability3.Transform Operation4.UpdateStateByKey Operation5.Output Operations on DStreams6.DataFrame and SQL Operations7.Fault-tolerance Semantics二.Spark Structured Streaming一.Spark Streaming1
Spark SQL Guide——Data Sources 文章目录Parquet FilesPartition Discovery(解析分区信息)Schema Merging(模式归并)Hive metastore Parquet table conversion(Hive metastore Parquet表转换)Columnar Encryption(列式加密)Hive TablesSpecifying storage format for Hive tables(指定Hive表的存储格式)Interacting with Different Versions
Hive的Metastore与Hiveserver2 文章目录Metastore原生Hive(内嵌模式)采用外部数据库(本地模式)单独起metastore服务(远程模式)Hiveserver2Metastore原生Hive(内嵌模式)Derby的内嵌模式:Derby数据库与应用程序共享同一个JVM,通常由应用程序负责启动和停止,对除启动它的应用程序外的其它应用程序不可见,即其它应用程序不可访问它;不同路径下启动hive,不同路径下都会生成metastore_db文件,每一个路径下的hive拥有一套自己的元数据,无法共享。spark和Hive一样,都
对Spark中Driver的小研究 目录Standalone模式Yarn模式driver是进程吗?先说结论:1.Standalone模式中,client是spark-submit进程中开启一个线程,然后通过反射执行driver代码的main方法。cluster是开启DriverWrapper进程来运行driver。2.Yarn模式,client是spark-submit进程中开启一个线程,然后通过反射执行driver代码的main方法。cluster是ApplicationMaster进程中通过反射执行driver代码的main方法
SQL案例分析及易错点整理 目录创建user表过滤行聚合函数分组子查询case when窗口函数创建user表create table user(username varchar(10),class int,performance int)insert into user values("zhang",1,6);insert into user values("zhu",1,8);insert into user values("liu",1,4);insert into user values("guo",2,6
《大数据技术体系详解》问题积累(持续更新) 文章目录一.数据收集1.关系型数据收集2.非关系型数据收集3.消息队列Kafka二.数据存储三.协调与资源管理四.计算引擎五.数据分析1.Hive2.Spark SQL一.数据收集1.关系型数据收集sqoop:全量收集。sqoop2和sqoop1的比较,就是将以前的CLI变为Server,然后再实现一个轻量级的CLI,可通过命令行或者HTTP来访问Server。就是把以前的CLI部署到了云端,现在的CLI只需要发送命令就行了。sqoop提交的就是一个只有map的MR程序。从mysql导入到h
微信小程序入门知识点汇总 整理自慕课网实战课《微信小程序入门》1.JSON对象和JS对象的区别2.px和rpx的区别3.flex布局4.属性中字符串和JS表达式的区别5.数据绑定Paga.data和SetData函数6.DOM优先和数据优先7.生命周期函数和特殊回调函数8.条件渲染和列表渲染9.路由函数NavigateTo和RedirectTo的区别10.Catch与Bind事件的区别...
玩转算法(十四)——链表(排序和重排) 目录重排86. 分隔链表328. 奇偶链表143. 重排链表排序148. 排序链表147. 对链表进行插入排序重排86. 分隔链表86. 分隔链表328. 奇偶链表328. 奇偶链表143. 重排链表143. 重排链表排序148. 排序链表148. 排序链表147. 对链表进行插入排序147. 对链表进行插入排序...
玩转算法(十三)——链表(双链表) 目录双链表2. 两数相加445. 两数相加 II21. 合并两个有序链表双链表2. 两数相加2. 两数相加445. 两数相加 II445. 两数相加 II21. 合并两个有序链表21. 合并两个有序链表
玩转算法(十二)——链表(删除链表) 目录删除链表83. 删除排序链表中的重复元素203. 移除链表元素82. 删除排序链表中的重复元素 II237. 删除链表中的节点19. 删除链表的倒数第 N 个结点删除链表83. 删除排序链表中的重复元素83. 删除排序链表中的重复元素203. 移除链表元素203. 移除链表元素82. 删除排序链表中的重复元素 II82. 删除排序链表中的重复元素 II237. 删除链表中的节点237. 删除链表中的节点19. 删除链表的倒数第 N 个结点19. 删除链表的倒数第 N 个结点..
玩转算法(十一)——链表(反转链表) 目录反转链表206. 反转链表92. 反转链表 II24. 两两交换链表中的节点25. K 个一组翻转链表61. 旋转链表反转链表206. 反转链表206. 反转链表92. 反转链表 II92. 反转链表 II24. 两两交换链表中的节点24. 两两交换链表中的节点25. K 个一组翻转链表25. K 个一组翻转链表61. 旋转链表61. 旋转链表...
关于Hive和Spark on yarn的调度总结 目录参考文章参考文章Hive Driver 原理yarn-cluster和yarn-client提交模式的区别Spark Thrift Server 架构和原理介绍理解Spark SQL(一)—— CLI和ThriftServer