自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

不花的花和尚的博客

菜鸟起飞了

  • 博客(14)
  • 资源 (12)
  • 收藏
  • 关注

原创 java:阿里巴巴Java开发手册中的DO、DTO、BO、AO、VO、POJO定义

分层领域模型规约:DO( Data Object):与数据库表结构一一对应,通过DAO层向上传输数据源对象。 DTO( Data Transfer Object):数据传输对象,Service或Manager向外传输的对象。 BO( Business Object):业务对象。 由Service层输出的封装业务逻辑的对象。 AO( Application Object):应用对象。 在Web层与Service层之间抽象的复用对象模型,极为贴近展示层,复用度不高。 VO( View Object)

2020-06-30 17:28:04 1054

原创 Spark:RDD checkpoint容错机制

经过上一节的学习,我们了解到合理地将RDD持久化/缓存,不仅直接避免了RDD的重复计算导致的资源浪费和占用还提升了RDD的容错性,而且间接提升了分析任务的完成效率,那么为什么又会需要基于checkpoint的容错机制,在什么情况下需要设置checkpoint呢?对RDD进行checkpoint操作,会将RDD直接存储到磁盘上,而不是内存,从而实现真正的数据持久化。checkpoint实际上对RDDlineage(RDD依赖关系图谱)的辅助和重新切割修正,当RDD依赖关系过于冗长和复杂时,即依赖...

2020-06-29 00:27:39 561

原创 Spark:持久化存储等级选取策略 /persist() / cache() /Storage Level

那么我们应该如何选取持久化的存储级别呢?实际上存储级别的选取就是Memory与CPU之间的双重权衡,可以参考下述内容:(1)如果RDD的数据量对于集群内存容量压力较小,可以很好地兼容默认存储级别(MEMORY ONLY),那么优先使用它,这是CPU工作最为高效的种方式, 可以很好地提高运行速度。(2)如果(1)不能满足,即集群的内存资源相较于cpu资源十分匮乏,则尝试使用MEMORY_ ONLY_ SER,且选择一种快速 的序列化工具,也可以达到一种不错的效果。(3)一般情况下不要把数据持久

2020-06-28 22:57:52 820

原创 scala:占位符的使用

在上面的实例中,用到了Scala占位符(_ ),若读者对Scala占位符还不甚了解,可以参考学习以下七个Scala占位符的常见用法:(1) import 导入包的所有成员,相当于Java的*,如import scala.math._。比Java方便的一点是它可以导 入某个类下的所有静态成员,Java则需要import static。(2)占位符,表示某一个参数,这个用法比较多。比如对collection、sequence 或者本章所学的RDD调用方法map、filter、sortWith、 fore

2020-06-27 16:10:46 1804

原创 Spark: sortBy和sortByKey函数详解

https://blog.csdn.net/hellojoy/article/details/81162741

2020-06-27 00:52:05 455

原创 Spark:对于提交命令的理解

如何使用spark-submit将打包好的jar提交到Spark上运行?打开终端,在终端中输入spark-submit --help, 可以查看spark-submit的详细帮助。下面说一下 spark-submit 的详细帮助。(1) --class 指向程序中的主类。 例如:--class "helloworld"(2) --master 是指集群的master URL。 举个例子,在本地运行就可以这样写:local模式:- -master local /...

2020-06-26 19:10:24 855

原创 spark:sparkstreaming 0.08版本 从 kafka 采集数据,并调用HTTP接口传参 + 定时任务

pom:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/

2020-06-19 11:19:08 1091

原创 spark:sparkstreaming 0.10版本 案例1:从 kafka 采集数据,并存储到 Hbase Demo示例 / 案例2:实时更新mysql

pom:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/

2020-06-19 10:38:06 818

原创 sql:hive:mysql:group by与distinct 去重

源数据(mysql)id userid subject score1 001 语文 90.02 001 数学 92.03 001 英语 80.04 002 语文 88.05 002 数学 90.06 002 英语 75.57 003 语文 70.08 003 数学 85.09 003 英语 90.010 003 政治 82.011 001 语文 91.012 001 语文 92.0源数据(hive)C1 C2 C3 C4.

2020-06-17 10:32:15 1176

转载 spark:RDD和DataFrame和DataSet三者间的区别

RDD vs DataFrames vs DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中,DataSet会逐步取代RD

2020-06-16 22:50:44 5323 2

原创 spark:sparksql:Spark SQL/DataFrame/DataSet操作(四)-----Join

https://blog.csdn.net/lingbo229/article/details/82464466

2020-06-15 17:32:51 211

原创 spark:sparksql:dataset、dataframe、rdd互转关系

2020-06-12 14:50:32 268

原创 jvm:查看jvm各块儿空间的使用详细情况,如堆,方法区

[root@xg ~]# jmap -heap 15653Attaching to process ID 15653, please wait...Debugger attached successfully.Server compiler detected.JVM version is 25.181-b13using thread-local object allocation.Parallel GC with 18 thread(s)Heap Configuration: Mi.

2020-06-04 18:28:05 1373

原创 sql:hive:函数:udf函数中使用case when

valanDF:DataFrame=spark.sql(s"""|select|namecn,UDFtest('10003',(casewhenstatus='A'then'1'whenstatus='B'then'2'whenstatus='C'then'3'end),origin)buss|from dd.lients|wheress='3'|andupdat...

2020-06-01 17:12:24 467

Xftp-7.0.0085p和Xshell-7.0.0087p教育版.zip

Xftp-7.0.0085p和Xshell-7.0.0087p教育版

2021-10-18

apache-phoenix.zip

实现sql查询Hbase,Phoenix 基于Hbase给面向业务的开发人员提供了以标准SQL的方式对Hbase进行查询操作,并支持标准SQL中大部分特性:条件运算,分组,分页,等高级查询语法。 这里提供两个版本: apache-phoenix-4.8.1-HBase-1.2-bin.tar.gz(建议使用) apache-phoenix-4.14.1-HBase-1.2-bin.tar.gz

2020-09-01

Hadoop本地环境配置 需要的文件hadoopdll和winutilexe.zip

windows本地跑hadoop环境配置,需要的文件hadoop.dll和winutil.exe,亲测可用,里边包含了我写的配置方法,需要的拿去!

2020-04-23

RedisDesktopManager_v0.9.3.817_itmop.com(可用).zip

之前下载的版本总是乱码,终于找到了这款,直接解压就可以用,分享给需要的人。 资源简介: 一款非常实用的redis桌面管理工具,它可以支持命令控制台操作,以及常用,查询key,rename,delete等操作。

2019-12-19

DBeaver(含hive驱动)

其实在网上搜一下,连接hive的工具还有很多,使用DBeaver的原因是因为我之前连接关系型数据库使用的就是DBeaver,正好DBeaver支持连接hive,且个人认为DBeaver确实挺好用的,支持各种关系型数据库,如连接Oracle数据库不需要像plsql那样自己配置连接文件,只需要在界面上输入url、用户名、密码即可,还有就是DBeaver的快捷键和Eclipse是一样的,比如注释、删除一行、复制一行到下一行等。 安装以及连接hive参考:https://blog.csdn.net/weixin_38750084/article/details/85263918

2019-05-31

MouseWithoutBordersSetup 无界鼠标

无界鼠标由于是微软出品的,所以只支持 Windows 平台,安装包也是 MSI 文件格式。安装和配置上比 Synergy 相对简单,可配置的项目不算多,最大的优点是可以实现跨电脑拷贝文件与拖放文件。另外,无界鼠标的电脑们是完全对等模式,你拿起任意一台电脑连接的鼠标和键盘都能操作其它电脑。

2019-05-25

kafkatool 连接kafka工具

kafka连接工具

2019-01-24

zookeeper客户端

详细安装:https://blog.csdn.net/weixin_38750084/article/details/86622166

2019-01-24

【进程查看器】Process+Explorer

Process Explorer 是一款免费的增强型任务管理器,是最好的进程管理器. 它能让使用者了解看不到的在后台执行的处理程序,可以使用它方便地管理你的程序进程. 能监视,挂起,重启,强行终止任何程序,包括系统级别的不允许随便终止的关键进程和十分隐蔽的顽固木马. 除此之外,它还详尽地显示计算机信息: CPU,内存,I/O使用情况,可以显示一个程序调用了哪些动态链接库DLL,句柄,模块,系统进程. 以目录树的方式查看进程之间的归属关系,可以对进程进行调试. 可以查看进程的路径,以及公司,版本等详细信息,多色彩显示服务进程,很酷的曲线图. 可以替换系统自带的任务管理器,有了它,系统自带的任务管理器就可以扔进垃圾桶了.

2018-09-30

DbVisualizer-8.0.9免安装版

特别好用的数据库连接工具,可以连接各种关系型数据库,还可以连接hive

2018-09-14

高级小知识点

2017-05-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除