2019年10月_孙砚秋

原创 13，s3 中的巨坑：视图一致性

1 ，如果数据量太大：我们的数据读写会报错2 ，解决：视图一致性emrFS ：创建集群的时候开启这个功能

2019-10-29 18:27:22 250

1 ，执行：spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 3 --executor-memory 6144m --class com.lifecycle.bala.testMyData.ShowFile s3://lifecyclebigdata/dataWareHouse/...

2019-10-28 16:43:47 156

原创 11 ，文件处理： 8 亿条

一，代理商库存流水：1 ，转换存储方式：列存储运行spark-submit --master yarn --deploy-mode cluster --num-executors 5 --executor-cores 3 --executor-memory 6144m --class com.lifecycle.bala.PaeseParquet.BusienessStockPa...

2019-10-25 12:53:36 150

原创 10 ，列式存储，提高效率，spark 计算

1 ，Q2 数据提取：看看前 20 条，数据对不对shell ：spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 4 --executor-memory 6144m --class com.lifecycle.bala.parquetJoinTest.ParquetJoi...

2019-10-23 19:29:13 5644

原创 09 ，销售流水分析：

一，需求一，门店单季销售流水分析1 ，需求： 1 ( 单季，单店：吊牌总额，销售总额，平均折扣 )单个门店分组只算 2019q2 季度吊牌总额销售总额平均折扣：销售总额 / 吊牌总额2 ，需求： 2 ( 新品：吊牌总额，销售总额，平均折扣 )新品的：吊牌总额新品的：销售总额新品的：销售总额新品的：平均折扣 = 新品的销售总额 / 新品...

2019-10-21 18:17:56 757 1

原创 08 ，商品资料 join 销售流水，多文件读取

1 ，数据条数统计：全量： 1.8 亿条2017 + 2018 + 2019 = 1.6 亿条 ( 1 6913 4355 )201812 + … + 201908 = 0.48 亿条 ( 4830 0541 )join 过之后的 = 0.31 亿条 ( 3139 7012 ) ( 1 分 39 秒 )2 ，商品资料 join 销售流水：共几条数据 ( 201812-2019...

2019-10-21 14:24:53 179

原创 07 ，分文件，库存流水.csv

1 ，代码：package com.lifecycle.toolsimport java.io.InputStreamimport java.util.Propertiesimport org.apache.hadoop.io.{LongWritable, Text}import org.apache.hadoop.mapred.TextInputFormatimport org...

2019-10-21 09:34:43 147

原创 06 ，spark 提速手段： 16G 文件读取耗时

1 ，普通数据格式：非压缩 ( 我们用 csv )Spark supports many formats, such as csv, json, xml, parquet, orc, and avro. Spark can be extended to support many more formats with external data sources - for more inform...

2019-10-20 22:41:23 646

原创 05 ，按照年月分文件：销售流水分析

一，测试：1 ，执行：客户端 ( 因为我要看打印结果 )spark-submit --master yarn --deploy-mode client --num-executors 20 --executor-cores 2 --executor-memory 4g --class com.lifecycle.tools.SplitFileTest s3://lifecyclebig...

2019-10-20 22:17:20 253

原创 04 ，分文件，指定文件名，aws-spark UI 界面，yarn UI 界面，查看 yarn日志，查杀 yarn 进程

1 ，打开集群的 tcp 的所有端口：2 ，找到主节点的 IP ： 52.83.124.1663 ，访问 yarn 的 UI 界面： 8088http://52.83.124.166:8088/cluster4 ，历史任务： 19888http://52.83.124.166:19888/jobhistory5 ，按照年月分区：执行spark-submit --ma...

2019-10-18 16:19:14 359

原创 03 ，spark 指定输出文件名

1 ，spark 输出文件的默认文件名：part-00011part-000122 ，示意图：3 ，文件名是谁指定的：那么，这个名字是谁指定的呢： hadoop 指定的spark 底层用的是 hadoop 的文件输出类4 ，话不多说，上代码： scala 编写package com.lifecycle.demo02import java.io.DataOutpu...

2019-10-17 18:42:03 5053 3

原创 02 ，将年月提取出来，按照年月拆表，spark 指定输出文件名，不要读取压缩文件

一，基恩操作：1 ，共几条： 1.8 亿条spark.sql("select count(1) from kv").show(20)2 ，卖货日期的最值：两个奇怪的日期最大值： 78190820最小值： 00181030代码：spark.sql("select max(SALE_DATE),min(SALE_DATE) from sale_float").sh...

2019-10-17 18:33:09 456

原创 01 ，统计条数，提速，提高读写 io 速度

一，统计它有多少条：1 ，压缩： gzgz 的压缩率： 20%csv 源文件： 12Ggz 文件： 2.6 GB2 ，运行：spark-submit --master yarn --deploy-mode client --num-executors 24 --executor-cores 2 --executor-memory 4g --class com.life...

2019-10-16 11:49:59 491

原创 22 ，一个完整的 spark 程序，支持 scala ，运行在 emr 上，读取 s3 文件，输出文件到 s3 ，程序内容：日期转周，周聚合，周累加，分区域输出文件

1 ，原始数据：goods.csv ： 2 万条款色号,款号,大类,中类,小类,性别,年季,商品年份,商品季节,颜色,上市月份,上市温度,订货评分,运营评分,波段,售价,系列,版型BAXL3399A04,BAXL3399,内搭,衬衫,长袖正统衬衫,,2016秋,2016,秋,A04,,,,,2016秋三,799,经典商务,合身版NWLJ4530L01,NWLJ4530,配件,皮具,福...

2019-10-12 17:48:44 1025

原创 21，spark sql 测试： 1.4G 文件实战，测试耗时多少，先分区，再在分区内计算，用列内容分区( 这是一个很魔幻的问题 )，自定义分区

1 ，表关联，数据过滤：sqlselect stock.area,goods.smallLei,goods.typeColorId, weekofyear(to_date(stock.sellDate,'yyyyMMdd')) weekofyear,stock.numBian from lifeCycleGoods goods,lifeCycleStock stock where...

2019-10-10 19:12:45 195

原创 20，sql 测试： 1.4g 文件的 sql 运行测试，表关联，日期转换，字符编码，乱码解决，程序的 shell 执行，字符串转数字，三个隐式转换，用列分区，输出，sum over

# 一，基础操作：### 1 ，表关联：```sqlselect stock.area,goods.smallLei,goods.typeColorId,weekofyear(to_date(stock.sellDate,'yyyyMMdd')) weekofyear,stock.numBian from lifeCycleGoods goods,lifeCycleStock stock where goods.typeId=stock.kuanId and goods.color=stock.

2019-10-10 17:16:35 201

原创 14 ，spark sql 例子：四张表数据( student,course,score,teacher )，建表

### 1 ，数据准备： 4 张表1. 学生表 ( student )学号，姓名，性别，生日，班级```csv1 孙福龙 m 1989-03-09 12 王婷婷 w 1992-02-24 13 王丹丹 w 1989-05-20 24 孙尚文 m 2020-12-20 25 孙静雅 w 2022-02-20 16 王珞丹 w 1986-07-26 17 张三 w 1975-01-01 38 李四 m 1979-06-06 3```2. 课程表 ( course)课程号，

2019-10-10 09:30:24 1223

原创 19，sql 优化：开窗函数，row_number() over，sum() over() ，窗口函数大全

一，常用：排序，累加1 ，分组取前三：精华代码：select * from (select id,name,clazz,score, row_number() over(partition by clazz order by score desc) rank from person) res where res.rank <=3结果：+---+...

2019-10-09 16:46:22 1892

原创 16 ，spark sql ：开窗函数，top3

一，开窗函数：1 ，共几行：sql ：val sql = "select sid,sname,count(1) over() cnt from student"val df: DataFrame = spark.sql(sql)df.show(100)结果：+---+------+---+|sid| sname|cnt|+---+------+---+| 1...

2019-10-07 14:02:11 439

原创 15，sql50 测试题：分区排序，二次排序，结果输出，分组，in，limit ，分组，聚合，小数点，group have，表关联-分组-聚合，子查询作为 in

1 ，查询 Student 表中的所有记录的 Sname、Ssex 和 Clazz 列。精华代码：spark.sql("select sname,ssex,sclazz from student").repartition(1).write.option("delimiter","\t").csv("s3a://lifecyclebigdata/test/res/res01")全部...

2019-10-06 00:34:23 290 1

原创 18 ，sql 测试： 1.5G 的文件计算，读写文件 ( csv 带表头 ) ，时长测试 ( 毫秒 ) ，统计总条数，spark on yarn 两种模式对比

### 1 ，商品表： goods.csv```csv款色号,款号,大类,中类,小类,性别,年季,商品年份,商品季节,颜色,上市月份,上市温度,订货评分,运营评分,波段,售价,系列,版型BAXL3399A04,BAXL3399,内搭,衬衫,长袖正统衬衫,,2016秋,2016,秋,A04,,,,,2016秋三,799,经典商务,合身版NWLJ4530L01,NWLJ4530,配件,皮具,福袋,,2015秋,2015,秋,L01,,,,,,999,经典商务,无FTXJ1109J03,FTXJ110

2019-10-05 16:13:18 427

原创 17 ，sql 效率优化：默认分区数，重分区，executor 数，每个 executor 的核心数，每个 executor 的内存大小

### 1 ，缓存：将表缓存在内存中```javaspark.sqlContext.cacheTable("emp")```### 2 ，清空缓存：```javaspark.sqlContext.clearCache```

2019-10-05 16:12:29 375

原创 13 ，读文件，读文件夹，输出文件，输出 csv ，指定分隔符，读写 csv

1 ，读 csv 文件：package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{I...

2019-10-05 16:11:21 317

原创 12 ，spark sql ：RDD-DS ，Aggregations ( 聚合 ) ，预定义聚合函数，自定义聚合函数，UDF

1 ，聚合函数：package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{Inte...

2019-10-05 15:44:52 266

原创 11 ，spark sql ：大量练习，df API ，sql ，DS ，引入隐式转换，Int 类型

1 ，df API ：package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types._i...

2019-10-05 11:44:01 326

原创 10 ，spark sql ：csv-rdd-df ，实战思路

1 ，元数据：1 sfl m 31 basketball2 wtt f 27 ui3 sswen m 3 falv4 sswu m 4 army5 sjw w 5 mishu6 sjy w 6 kuaguozongcai2 ，pojo 类：package com.sparkSqlclass Jia(var id:Int, var name:String,var sex:S...

2019-10-05 01:31:53 270

原创 9 ，spark sql ：注册临时视图，sql 语句，df - rdd 转换，row 的列操作

1 ，注册临时表：代码：package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSessi...

2019-10-04 22:49:42 679

原创 8 ，spark sql ： spark sql 和 dataset ，读 s3 的 csv 文件，元数据信息，df 的 where 子句

一，基本知识：1 ，出现：2013 年2 ，使用：最多3 ，数据来源：广泛hive , oracle ，…4 ，DataFrame ：数据集以 RDD 为基础得到分布式数据集二，建 ds ，读 s3 中的文件： csv ，json1 ，读 s3 的 csv ：代码package com.sparkSqlimport java.io.FileInpu...

2019-10-04 21:48:26 428

原创 8，spark on yarn ，任务提交，spark-shell ，查看集群资源，分区实验

一，spark on yarn ：1 ，spark 概念：Driver：和 ClusterManager 通信，进行资源申请、任务分配并监督其运行状况等。ClusterManager ：这里指 YARN。DAGScheduler ：把 spark 作业转换成 Stage 的 DAG 图。TaskScheduler ：把 Task 分配给具体的 Executor。2 ，yarn ...

2019-10-03 16:25:10 1163

孙砚秋的博客