自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Top5软件工程硕士,先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

博文均为博主精心总结,从企业实战出发,提高开发中解决问题的能力

  • 博客(9)
  • 资源 (11)
  • 问答 (1)
  • 收藏
  • 关注

原创 FlinkSQL 依赖的pom/api.Table

<!--公共依赖版本号--> <properties> <flink.version>1.9.2</flink.version> <flink.scala.version>2.11</flink.scala.version> </properties> <!-- https://mvnrepository.com/artifact/org...

2021-03-22 10:30:55 2021

原创 关于maven依赖中的<scope>provided</scope>使用

今天开发web的时候,需要用到servlet-api,于是在pom.xml中添加依赖<dependency> <groupId>javax.servlet</groupId> <artifactId>servlet-api</artifactId> <version>3.0-alpha-1</version> </depend

2021-03-18 10:16:01 1279

原创 FlinkSQL split报错No match found for function signature 使用UDF ScalarFunction/TableFunction

1 用TableFunction报错,用ScalarFunction正常 stEnv.registerFunction("SplitLine",new SplitLine("_")); //报错SqlValidatorException: No match found for function signature SplitLine(<CHARACTER>) Table result = stEnv.sqlQuery("SELECT name,

2021-03-10 11:06:24 10971

原创 Spark的 job stage task 的关系和划分

比如如下DAG:tansform11->tansform12(shuffle)->action1->tansform21->tansform22(shuffle)-> tansform23->tansform24(shuffle) ->action2如上,会启用2个job,第1个job执行【tansform11->tansform12(shuffle)->action1】,含有1个stage;第2个job执行【tansform21->t

2021-03-07 18:31:25 490

原创 Spark为何比MapReduce更快?Spark基于内存计算什么意思?

1 spark的task是线程,启动更快;mr的task是进程2 spark的很多操作是在内存进行,只有shuffle操作才会把数据落盘;mr的很多操作,包括shuffle,会把数据落盘3 spark的shuffle阶段对中间结果文件建立有索引文件,读取更快;mr对中间文件没有建立索引文件;4spark的shuffle阶段启用bypass时不会对中间结果文件进行排序;mr的shuffle阶段包含3次排序;5 spark可以对反复用到的数据进行缓存,避免多次加载花费时间;mr不能把多次用到..

2021-03-07 18:23:18 1951

原创 Mapreduce中Shuffle 与 Spark中Shuffle 的区别 ?

Spark 1.2以后默认用SortShuffleManager不同点: MapreduceShuffle SparkShuffle map端大文件的索引文件 没有 有 map端输出的文件是否有序 有序 如果启用byPass机制则不会排序(),反之会排序 中间文件是否落盘 相同点:1 都是先写到内存,达到阈值时溢出多个小文件2 有多少个map会产生多少个大文件;上游stage...

2021-03-07 16:41:32 649

原创 mapreducce 任务过程 发生几次排序?/数据几次落盘?/数据几次merge?/数据几次读入内存?

发生几次排序?即发生3次排序:1 map spill到磁盘的小文件是有序的(达到阈值时,先对环形缓冲区的数据排序,然后spill到磁盘)2map spill到磁盘的多个小文件会合并成一个有序的大文件3 reduce copy后,把溢出的多个小文件合并成一个有序的大文件1快速排序,2/3是归并排序。数据几次落盘?1map spill到磁盘的小文件2reduce copy后,达到一定阈值时,会溢出多个小文件到磁盘数据几次merge?1 map端把溢出的多个...

2021-03-07 16:19:51 1065

原创 Hive case when 符合多个条件 输出哪个?

select CASE when 1= 1 then 1 when 2=2 then 2 else 3 end as c1 ; -- 输出 1 第一个when符合条件时,则不会再往下进行其他when和else。Hive 2.0.0

2021-03-05 19:00:07 4422

原创 distcp 复制到同路径下 复制到不同路径下

复制到同路径下:a/b/c1distcp -pt hdfs://a/b/c/2021-02-01hdfs://a/b/c/1900-01-01结果是:hdfs://a/b/c/1900-01-01/2021-02-012distcp -pt hdfs://a/b/c/2021-02-01/* hdfs://a/b/c/1900-01-01或者distcp -pt hdfs://a/b/c/2021-02-01/* hdfs://a/b/c/1900-01...

2021-03-03 22:00:58 305 1

split_csv.sh

v6.csv有200多万行,excel的一个sheet最多显示104万行左右,显示不全,那么如何切分呢? 亲测可用

2020-03-21

htmlunit-2.31.jar

htmlunit-2.31,亲测可用!能很好的完成抓取需求,能够模拟输入、点击按钮、解析结果

2018-06-10

mhd raw metaimage java读取类

亲测可用,mhd raw metaimage java读取类。mhd raw metaimage java读取类。mhd raw metaimage java读取类。

2017-10-18

quartz定时任务

不用集成Spring,代码简洁,亲测可用

2017-05-20

Struts2登录实例--亲测可用

Struts2登录实例--亲测可用,拦截器,Action,值栈......都用到了

2017-05-17

joda-time-2.3.jar

DateTime类型,方便使用

2016-11-17

commons-lang-2.5.jar

解决..java.lang.NoClassDefFoundError: org/apache/commons/lang/StringUtils问题

2016-07-08

commons-configuration-1.6.jar

解决..java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration, 亲测可用

2016-07-08

android通过servlet与服务器验证用户信息

成功返回success,失败返回failed 1注意manifext.xml的权限 2 servlet project的类一定要extends httpservlet 3 servlet project中,com是包名,所以Tomcat是...classes/com/xxx.class 4 192.168.0.107是电脑的IP,需要手机电脑连接的是同一个wifi,电脑的防火墙一定要关闭

2016-03-26

全国省市县区域名称

省市县区域名称,例如: ................. 240: 云南省:昆明市 240864: 云南省 昆明市 东川区 240865: 云南省 昆明市 五华区 240866: 云南省 昆明市 呈贡县 240867: 云南省 昆明市 安宁市 ............

2015-11-17

拼图游戏C语言

拼图游戏开发,使用语言为C语言类,游戏开发,

2013-05-24

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除