自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孙砚秋的博客

好东西,就分享给朋友吧

  • 博客(29)
  • 资源 (1)
  • 收藏
  • 关注

原创 13,s3 中的巨坑 : 视图一致性

1 ,如果数据量太大 :我们的数据读写会报错2 ,解决 : 视图一致性emrFS : 创建集群的时候开启这个功能

2019-10-29 18:27:22 250

原创 12 ,读取转好的文件,合并文件

1 ,执行 :spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 3 --executor-memory 6144m --class com.lifecycle.bala.testMyData.ShowFile s3://lifecyclebigdata/dataWareHouse/...

2019-10-28 16:43:47 156

原创 11 ,文件处理 : 8 亿条

一 ,代理商库存流水 :1 ,转换存储方式 : 列存储运行spark-submit --master yarn --deploy-mode cluster --num-executors 5 --executor-cores 3 --executor-memory 6144m --class com.lifecycle.bala.PaeseParquet.BusienessStockPa...

2019-10-25 12:53:36 150

原创 10 ,列式存储,提高效率,spark 计算

1 ,Q2 数据提取 : 看看前 20 条,数据对不对shell :spark-submit --master yarn --deploy-mode client --num-executors 5 --executor-cores 4 --executor-memory 6144m --class com.lifecycle.bala.parquetJoinTest.ParquetJoi...

2019-10-23 19:29:13 5644

原创 09 ,销售流水分析 :

一 ,需求一 ,门店单季销售流水分析1 ,需求 : 1 ( 单季,单店 : 吊牌总额,销售总额,平均折扣 )单个门店分组只算 2019q2 季度吊牌总额销售总额平均折扣 : 销售总额 / 吊牌总额2 ,需求 : 2 ( 新品 : 吊牌总额,销售总额,平均折扣 )新品的 : 吊牌总额新品的 : 销售总额新品的 : 销售总额新品的 : 平均折扣 = 新品的销售总额 / 新品...

2019-10-21 18:17:56 757 1

原创 08 ,商品资料 join 销售流水 ,多文件读取

1 ,数据条数统计 :全量 : 1.8 亿条2017 + 2018 + 2019 = 1.6 亿条 ( 1 6913 4355 )201812 + … + 201908 = 0.48 亿条 ( 4830 0541 )join 过之后的 = 0.31 亿条 ( 3139 7012 ) ( 1 分 39 秒 )2 ,商品资料 join 销售流水 : 共几条数据 ( 201812-2019...

2019-10-21 14:24:53 179

原创 07 ,分文件,库存流水.csv

1 ,代码 :package com.lifecycle.toolsimport java.io.InputStreamimport java.util.Propertiesimport org.apache.hadoop.io.{LongWritable, Text}import org.apache.hadoop.mapred.TextInputFormatimport org...

2019-10-21 09:34:43 147

原创 06 ,spark 提速手段 : 16G 文件读取耗时

1 ,普通数据格式 : 非压缩 ( 我们用 csv )Spark supports many formats, such as csv, json, xml, parquet, orc, and avro. Spark can be extended to support many more formats with external data sources - for more inform...

2019-10-20 22:41:23 646

原创 05 ,按照年月分文件 : 销售流水分析

一 ,测试 :1 ,执行 : 客户端 ( 因为我要看打印结果 )spark-submit --master yarn --deploy-mode client --num-executors 20 --executor-cores 2 --executor-memory 4g --class com.lifecycle.tools.SplitFileTest s3://lifecyclebig...

2019-10-20 22:17:20 253

原创 04 ,分文件,指定文件名,aws-spark UI 界面,yarn UI 界面 ,查看 yarn日志,查杀 yarn 进程

1 ,打开集群的 tcp 的所有端口 :2 ,找到主节点的 IP : 52.83.124.1663 ,访问 yarn 的 UI 界面 : 8088http://52.83.124.166:8088/cluster4 ,历史任务 : 19888http://52.83.124.166:19888/jobhistory5 ,按照年月分区 : 执行spark-submit --ma...

2019-10-18 16:19:14 359

原创 03 ,spark 指定输出文件名

1 ,spark 输出文件的默认文件名 :part-00011part-000122 ,示意图 :3 ,文件名是谁指定的 :那么,这个名字是谁指定的呢 : hadoop 指定的spark 底层用的是 hadoop 的文件输出类4 ,话不多说,上代码 : scala 编写package com.lifecycle.demo02import java.io.DataOutpu...

2019-10-17 18:42:03 5053 3

原创 02 ,将年月提取出来,按照年月拆表,spark 指定输出文件名,不要读取压缩文件

一 ,基恩操作 :1 ,共几条 : 1.8 亿条spark.sql("select count(1) from kv").show(20)2 ,卖货日期的最值 : 两个奇怪的日期最大值 : 78190820最小值 : 00181030代码 :spark.sql("select max(SALE_DATE),min(SALE_DATE) from sale_float").sh...

2019-10-17 18:33:09 456

原创 01 ,统计条数,提速,提高读写 io 速度

一 ,统计它有多少条 :1 ,压缩 : gzgz 的压缩率 : 20%csv 源文件 : 12Ggz 文件 : 2.6 GB2 ,运行 :spark-submit --master yarn --deploy-mode client --num-executors 24 --executor-cores 2 --executor-memory 4g --class com.life...

2019-10-16 11:49:59 491

原创 22 ,一个完整的 spark 程序,支持 scala ,运行在 emr 上,读取 s3 文件,输出文件到 s3 ,程序内容:日期转周,周聚合,周累加,分区域输出文件

1 ,原始数据 :goods.csv : 2 万条款色号,款号,大类,中类,小类,性别,年季,商品年份,商品季节,颜色,上市月份,上市温度,订货评分,运营评分,波段,售价,系列,版型BAXL3399A04,BAXL3399,内搭,衬衫,长袖正统衬衫,,2016秋,2016,秋,A04,,,,,2016秋三,799,经典商务,合身版NWLJ4530L01,NWLJ4530,配件,皮具,福...

2019-10-12 17:48:44 1025

原创 21,spark sql 测试 : 1.4G 文件实战,测试耗时多少,先分区,再在分区内计算,用列内容分区( 这是一个很魔幻的问题 ),自定义分区

1 ,表关联,数据过滤 :sqlselect stock.area,goods.smallLei,goods.typeColorId, weekofyear(to_date(stock.sellDate,'yyyyMMdd')) weekofyear,stock.numBian from lifeCycleGoods goods,lifeCycleStock stock where...

2019-10-10 19:12:45 195

原创 20,sql 测试 : 1.4g 文件的 sql 运行测试,表关联,日期转换,字符编码,乱码解决,程序的 shell 执行,字符串转数字,三个隐式转换,用列分区,输出,sum over

# 一 ,基础操作 :### 1 ,表关联 :```sqlselect stock.area,goods.smallLei,goods.typeColorId,weekofyear(to_date(stock.sellDate,'yyyyMMdd')) weekofyear,stock.numBian from lifeCycleGoods goods,lifeCycleStock stock where goods.typeId=stock.kuanId and goods.color=stock.

2019-10-10 17:16:35 201

原创 14 ,spark sql 例子 :四张表数据( student,course,score,teacher ),建表

### 1 ,数据准备 : 4 张表1. 学生表 ( student )学号 ,姓名 ,性别 ,生日 ,班级```csv1 孙福龙 m 1989-03-09 12 王婷婷 w 1992-02-24 13 王丹丹 w 1989-05-20 24 孙尚文 m 2020-12-20 25 孙静雅 w 2022-02-20 16 王珞丹 w 1986-07-26 17 张三 w 1975-01-01 38 李四 m 1979-06-06 3```2. 课程表 ( course)课程号 ,

2019-10-10 09:30:24 1223

原创 19,sql 优化 :开窗函数,row_number() over,sum() over() ,窗口函数大全

一 ,常用 : 排序,累加1 ,分组取前三 :精华代码 :select * from (select id,name,clazz,score, row_number() over(partition by clazz order by score desc) rank from person) res where res.rank <=3结果 :+---+...

2019-10-09 16:46:22 1892

原创 16 ,spark sql : 开窗函数 ,top3

一 ,开窗函数 :1 ,共几行 :sql :val sql = "select sid,sname,count(1) over() cnt from student"val df: DataFrame = spark.sql(sql)df.show(100)结果 :+---+------+---+|sid| sname|cnt|+---+------+---+| 1...

2019-10-07 14:02:11 439

原创 15,sql50 测试题 : 分区排序,二次排序,结果输出,分组,in,limit ,分组,聚合 ,小数点,group have,表关联-分组-聚合,子查询作为 in

1 ,查询 Student 表中的所有记录的 Sname、Ssex 和 Clazz 列。精华代码 :spark.sql("select sname,ssex,sclazz from student").repartition(1).write.option("delimiter","\t").csv("s3a://lifecyclebigdata/test/res/res01")全部...

2019-10-06 00:34:23 290 1

原创 18 ,sql 测试 : 1.5G 的文件计算,读写文件 ( csv 带表头 ) ,时长测试 ( 毫秒 ) ,统计总条数,spark on yarn 两种模式对比

### 1 ,商品表 : goods.csv```csv款色号,款号,大类,中类,小类,性别,年季,商品年份,商品季节,颜色,上市月份,上市温度,订货评分,运营评分,波段,售价,系列,版型BAXL3399A04,BAXL3399,内搭,衬衫,长袖正统衬衫,,2016秋,2016,秋,A04,,,,,2016秋三,799,经典商务,合身版NWLJ4530L01,NWLJ4530,配件,皮具,福袋,,2015秋,2015,秋,L01,,,,,,999,经典商务,无FTXJ1109J03,FTXJ110

2019-10-05 16:13:18 427

原创 17 ,sql 效率优化 :默认分区数,重分区,executor 数 ,每个 executor 的核心数 ,每个 executor 的内存大小

### 1 ,缓存 : 将表缓存在内存中```javaspark.sqlContext.cacheTable("emp")```### 2 ,清空缓存 :```javaspark.sqlContext.clearCache```

2019-10-05 16:12:29 375

原创 13 ,读文件 ,读文件夹,输出文件 ,输出 csv ,指定分隔符 ,读写 csv

1 ,读 csv 文件 :package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{I...

2019-10-05 16:11:21 317

原创 12 ,spark sql :RDD-DS ,Aggregations ( 聚合 ) ,预定义聚合函数,自定义聚合函数 ,UDF

1 ,聚合函数 :package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{Inte...

2019-10-05 15:44:52 266

原创 11 ,spark sql : 大量练习 ,df API ,sql ,DS ,引入隐式转换 ,Int 类型

1 ,df API :package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types._i...

2019-10-05 11:44:01 326

原创 10 ,spark sql :csv-rdd-df ,实战思路

1 ,元数据 :1 sfl m 31 basketball2 wtt f 27 ui3 sswen m 3 falv4 sswu m 4 army5 sjw w 5 mishu6 sjy w 6 kuaguozongcai2 ,pojo 类 :package com.sparkSqlclass Jia(var id:Int, var name:String,var sex:S...

2019-10-05 01:31:53 270

原创 9 ,spark sql : 注册临时视图 ,sql 语句 ,df - rdd 转换 ,row 的列操作

1 ,注册临时表 :代码 :package com.sparkSqlimport java.io.FileInputStreamimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSessi...

2019-10-04 22:49:42 679

原创 8 ,spark sql : spark sql 和 dataset ,读 s3 的 csv 文件 ,元数据信息 ,df 的 where 子句

一 ,基本知识 :1 ,出现 :2013 年2 ,使用 :最多3 ,数据来源 : 广泛hive , oracle ,…4 ,DataFrame : 数据集以 RDD 为基础得到分布式数据集二 ,建 ds ,读 s3 中的文件 : csv ,json1 ,读 s3 的 csv :代码package com.sparkSqlimport java.io.FileInpu...

2019-10-04 21:48:26 428

原创 8,spark on yarn ,任务提交 ,spark-shell ,查看集群资源 ,分区实验

一 ,spark on yarn :1 ,spark 概念 :Driver:和 ClusterManager 通信,进行资源申请、任务分配并监督其运行状况等。ClusterManager :这里指 YARN。DAGScheduler :把 spark 作业转换成 Stage 的 DAG 图。TaskScheduler :把 Task 分配给具体的 Executor。2 ,yarn ...

2019-10-03 16:25:10 1163

Typora-课件.zip

一款很好用的工具,很多人在使用,这个是 typora 使用指南,希望对大家有所帮助

2018-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除