- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 17 ,scala 传入可变参数
1 ,将数组传入到可变参数中去 :val saleYm: DataFrame = spark.read.option(“header”,“true”).option(“delimiter”,",").parquet(arrPath:_*)
2019-11-23 18:49:50 708
原创 14 ,spark 的文件读取与分块机制 :
1 ,常用文件类型 :csv ,gz ,parquet2 ,gz : 一种压缩文件 ( 压缩比很大 )读取 gz : 就像读取普通文件一样 ( 因为 spark 底层为我们做了处理 )我们的 gz 文件 : 他是一个 csv 压缩来的文件。语法 :val stock: DataFrame = spark.read.option("header","true").option("de...
2019-11-22 07:20:16 1000
原创 20 ,aws 创建 mysql :
1 ,网址 :https://cn-northwest-1.console.amazonaws.cn/rds/home?region=cn-northwest-1#databases:2 ,创建 :下一步即可
2019-11-15 15:54:03 142
原创 2 ,实验数据,top10 ,bottom10
1 ,用户数据 : users.dat ( 6040 条 )userid::gender::age::occupation::zip-code1::F::1::10::480672::M::56::16::700723::M::25::15::551172 ,评分数据 : ratings.dat ( 1000209 条 )userid::movieid::rating::timest...
2019-11-15 11:17:56 796
原创 0 ,调优
1 ,文件类型 : No gz结论 : 不要 gz ,如果有 gz ,我们要先进行预处理,然后再进行运算。原因 : gz 不支持分块,我们要对他进行解压,然后才开始正常使用。2 ,存储类型 : parquet结论 : 列式存储原因 : spark 的专用存储方式,会大大提高效率...
2019-11-15 11:14:04 52
原创 1 ,数据来源
1 ,数据来自哪里 :美国名尼苏达大学。以研究为目的,搜集的实验性数据。2 ,网址 :电影网数据 :https://grouplens.org/datasets/movielens/其它各类数据 :https://www.kaggle.com/datasets3 ,得到 :...
2019-11-14 17:58:17 192
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人