自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

孙砚秋的博客

好东西,就分享给朋友吧

  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 17 ,scala 传入可变参数

1 ,将数组传入到可变参数中去 :val saleYm: DataFrame = spark.read.option(“header”,“true”).option(“delimiter”,",").parquet(arrPath:_*)

2019-11-23 18:49:50 708

原创 14 ,spark 的文件读取与分块机制 :

1 ,常用文件类型 :csv ,gz ,parquet2 ,gz : 一种压缩文件 ( 压缩比很大 )读取 gz : 就像读取普通文件一样 ( 因为 spark 底层为我们做了处理 )我们的 gz 文件 : 他是一个 csv 压缩来的文件。语法 :val stock: DataFrame = spark.read.option("header","true").option("de...

2019-11-22 07:20:16 1000

原创 20 ,aws 创建 mysql :

1 ,网址 :https://cn-northwest-1.console.amazonaws.cn/rds/home?region=cn-northwest-1#databases:2 ,创建 :下一步即可

2019-11-15 15:54:03 142

原创 3 ,过滤 - filter ,连接 - join ,排序 ,查看前 10

1 ,查看前 10 :resUserRDD.take(10)

2019-11-15 11:40:18 228

原创 2 ,实验数据,top10 ,bottom10

1 ,用户数据 : users.dat ( 6040 条 )userid::gender::age::occupation::zip-code1::F::1::10::480672::M::56::16::700723::M::25::15::551172 ,评分数据 : ratings.dat ( 1000209 条 )userid::movieid::rating::timest...

2019-11-15 11:17:56 796

原创 0 ,调优

1 ,文件类型 : No gz结论 : 不要 gz ,如果有 gz ,我们要先进行预处理,然后再进行运算。原因 : gz 不支持分块,我们要对他进行解压,然后才开始正常使用。2 ,存储类型 : parquet结论 : 列式存储原因 : spark 的专用存储方式,会大大提高效率...

2019-11-15 11:14:04 52

原创 1 ,数据来源

1 ,数据来自哪里 :美国名尼苏达大学。以研究为目的,搜集的实验性数据。2 ,网址 :电影网数据 :https://grouplens.org/datasets/movielens/其它各类数据 :https://www.kaggle.com/datasets3 ,得到 :...

2019-11-14 17:58:17 192

Typora-课件.zip

一款很好用的工具,很多人在使用,这个是 typora 使用指南,希望对大家有所帮助

2018-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除