- 博客(9)
- 资源 (11)
- 问答 (1)
- 收藏
- 关注
原创 FlinkSQL 依赖的pom/api.Table
<!--公共依赖版本号--> <properties> <flink.version>1.9.2</flink.version> <flink.scala.version>2.11</flink.scala.version> </properties> <!-- https://mvnrepository.com/artifact/org...
2021-03-22 10:30:55 2021
原创 关于maven依赖中的<scope>provided</scope>使用
今天开发web的时候,需要用到servlet-api,于是在pom.xml中添加依赖<dependency> <groupId>javax.servlet</groupId> <artifactId>servlet-api</artifactId> <version>3.0-alpha-1</version> </depend
2021-03-18 10:16:01 1279
原创 FlinkSQL split报错No match found for function signature 使用UDF ScalarFunction/TableFunction
1 用TableFunction报错,用ScalarFunction正常 stEnv.registerFunction("SplitLine",new SplitLine("_")); //报错SqlValidatorException: No match found for function signature SplitLine(<CHARACTER>) Table result = stEnv.sqlQuery("SELECT name,
2021-03-10 11:06:24 10971
原创 Spark的 job stage task 的关系和划分
比如如下DAG:tansform11->tansform12(shuffle)->action1->tansform21->tansform22(shuffle)-> tansform23->tansform24(shuffle) ->action2如上,会启用2个job,第1个job执行【tansform11->tansform12(shuffle)->action1】,含有1个stage;第2个job执行【tansform21->t
2021-03-07 18:31:25 490
原创 Spark为何比MapReduce更快?Spark基于内存计算什么意思?
1 spark的task是线程,启动更快;mr的task是进程2 spark的很多操作是在内存进行,只有shuffle操作才会把数据落盘;mr的很多操作,包括shuffle,会把数据落盘3 spark的shuffle阶段对中间结果文件建立有索引文件,读取更快;mr对中间文件没有建立索引文件;4spark的shuffle阶段启用bypass时不会对中间结果文件进行排序;mr的shuffle阶段包含3次排序;5 spark可以对反复用到的数据进行缓存,避免多次加载花费时间;mr不能把多次用到..
2021-03-07 18:23:18 1951
原创 Mapreduce中Shuffle 与 Spark中Shuffle 的区别 ?
Spark 1.2以后默认用SortShuffleManager不同点: MapreduceShuffle SparkShuffle map端大文件的索引文件 没有 有 map端输出的文件是否有序 有序 如果启用byPass机制则不会排序(),反之会排序 中间文件是否落盘 相同点:1 都是先写到内存,达到阈值时溢出多个小文件2 有多少个map会产生多少个大文件;上游stage...
2021-03-07 16:41:32 649
原创 mapreducce 任务过程 发生几次排序?/数据几次落盘?/数据几次merge?/数据几次读入内存?
发生几次排序?即发生3次排序:1 map spill到磁盘的小文件是有序的(达到阈值时,先对环形缓冲区的数据排序,然后spill到磁盘)2map spill到磁盘的多个小文件会合并成一个有序的大文件3 reduce copy后,把溢出的多个小文件合并成一个有序的大文件1快速排序,2/3是归并排序。数据几次落盘?1map spill到磁盘的小文件2reduce copy后,达到一定阈值时,会溢出多个小文件到磁盘数据几次merge?1 map端把溢出的多个...
2021-03-07 16:19:51 1065
原创 Hive case when 符合多个条件 输出哪个?
select CASE when 1= 1 then 1 when 2=2 then 2 else 3 end as c1 ; -- 输出 1 第一个when符合条件时,则不会再往下进行其他when和else。Hive 2.0.0
2021-03-05 19:00:07 4422
原创 distcp 复制到同路径下 复制到不同路径下
复制到同路径下:a/b/c1distcp -pt hdfs://a/b/c/2021-02-01hdfs://a/b/c/1900-01-01结果是:hdfs://a/b/c/1900-01-01/2021-02-012distcp -pt hdfs://a/b/c/2021-02-01/* hdfs://a/b/c/1900-01-01或者distcp -pt hdfs://a/b/c/2021-02-01/* hdfs://a/b/c/1900-01...
2021-03-03 22:00:58 305 1
mhd raw metaimage java读取类
2017-10-18
commons-lang-2.5.jar
2016-07-08
commons-configuration-1.6.jar
2016-07-08
android通过servlet与服务器验证用户信息
2016-03-26
全国省市县区域名称
2015-11-17
android布局中用到dimension,这样的作用是什么?好处是?
2015-12-26
TA创建的收藏夹 TA关注的收藏夹
TA关注的人