- 博客(14)
- 资源 (12)
- 收藏
- 关注
原创 java:阿里巴巴Java开发手册中的DO、DTO、BO、AO、VO、POJO定义
分层领域模型规约:DO( Data Object):与数据库表结构一一对应,通过DAO层向上传输数据源对象。 DTO( Data Transfer Object):数据传输对象,Service或Manager向外传输的对象。 BO( Business Object):业务对象。 由Service层输出的封装业务逻辑的对象。 AO( Application Object):应用对象。 在Web层与Service层之间抽象的复用对象模型,极为贴近展示层,复用度不高。 VO( View Object)
2020-06-30 17:28:04 1054
原创 Spark:RDD checkpoint容错机制
经过上一节的学习,我们了解到合理地将RDD持久化/缓存,不仅直接避免了RDD的重复计算导致的资源浪费和占用还提升了RDD的容错性,而且间接提升了分析任务的完成效率,那么为什么又会需要基于checkpoint的容错机制,在什么情况下需要设置checkpoint呢?对RDD进行checkpoint操作,会将RDD直接存储到磁盘上,而不是内存,从而实现真正的数据持久化。checkpoint实际上对RDDlineage(RDD依赖关系图谱)的辅助和重新切割修正,当RDD依赖关系过于冗长和复杂时,即依赖...
2020-06-29 00:27:39 561
原创 Spark:持久化存储等级选取策略 /persist() / cache() /Storage Level
那么我们应该如何选取持久化的存储级别呢?实际上存储级别的选取就是Memory与CPU之间的双重权衡,可以参考下述内容:(1)如果RDD的数据量对于集群内存容量压力较小,可以很好地兼容默认存储级别(MEMORY ONLY),那么优先使用它,这是CPU工作最为高效的种方式, 可以很好地提高运行速度。(2)如果(1)不能满足,即集群的内存资源相较于cpu资源十分匮乏,则尝试使用MEMORY_ ONLY_ SER,且选择一种快速 的序列化工具,也可以达到一种不错的效果。(3)一般情况下不要把数据持久
2020-06-28 22:57:52 820
原创 scala:占位符的使用
在上面的实例中,用到了Scala占位符(_ ),若读者对Scala占位符还不甚了解,可以参考学习以下七个Scala占位符的常见用法:(1) import 导入包的所有成员,相当于Java的*,如import scala.math._。比Java方便的一点是它可以导 入某个类下的所有静态成员,Java则需要import static。(2)占位符,表示某一个参数,这个用法比较多。比如对collection、sequence 或者本章所学的RDD调用方法map、filter、sortWith、 fore
2020-06-27 16:10:46 1804
原创 Spark: sortBy和sortByKey函数详解
https://blog.csdn.net/hellojoy/article/details/81162741
2020-06-27 00:52:05 455
原创 Spark:对于提交命令的理解
如何使用spark-submit将打包好的jar提交到Spark上运行?打开终端,在终端中输入spark-submit --help, 可以查看spark-submit的详细帮助。下面说一下 spark-submit 的详细帮助。(1) --class 指向程序中的主类。 例如:--class "helloworld"(2) --master 是指集群的master URL。 举个例子,在本地运行就可以这样写:local模式:- -master local /...
2020-06-26 19:10:24 855
原创 spark:sparkstreaming 0.08版本 从 kafka 采集数据,并调用HTTP接口传参 + 定时任务
pom:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/
2020-06-19 11:19:08 1091
原创 spark:sparkstreaming 0.10版本 案例1:从 kafka 采集数据,并存储到 Hbase Demo示例 / 案例2:实时更新mysql
pom:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/
2020-06-19 10:38:06 818
原创 sql:hive:mysql:group by与distinct 去重
源数据(mysql)id userid subject score1 001 语文 90.02 001 数学 92.03 001 英语 80.04 002 语文 88.05 002 数学 90.06 002 英语 75.57 003 语文 70.08 003 数学 85.09 003 英语 90.010 003 政治 82.011 001 语文 91.012 001 语文 92.0源数据(hive)C1 C2 C3 C4.
2020-06-17 10:32:15 1176
转载 spark:RDD和DataFrame和DataSet三者间的区别
RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中,DataSet会逐步取代RD
2020-06-16 22:50:44 5323 2
原创 spark:sparksql:Spark SQL/DataFrame/DataSet操作(四)-----Join
https://blog.csdn.net/lingbo229/article/details/82464466
2020-06-15 17:32:51 211
原创 jvm:查看jvm各块儿空间的使用详细情况,如堆,方法区
[root@xg ~]# jmap -heap 15653Attaching to process ID 15653, please wait...Debugger attached successfully.Server compiler detected.JVM version is 25.181-b13using thread-local object allocation.Parallel GC with 18 thread(s)Heap Configuration: Mi.
2020-06-04 18:28:05 1373
原创 sql:hive:函数:udf函数中使用case when
valanDF:DataFrame=spark.sql(s"""|select|namecn,UDFtest('10003',(casewhenstatus='A'then'1'whenstatus='B'then'2'whenstatus='C'then'3'end),origin)buss|from dd.lients|wheress='3'|andupdat...
2020-06-01 17:12:24 467
apache-phoenix.zip
2020-09-01
Hadoop本地环境配置 需要的文件hadoopdll和winutilexe.zip
2020-04-23
RedisDesktopManager_v0.9.3.817_itmop.com(可用).zip
2019-12-19
DBeaver(含hive驱动)
2019-05-31
MouseWithoutBordersSetup 无界鼠标
2019-05-25
【进程查看器】Process+Explorer
2018-09-30
高级小知识点
2017-05-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人