2019年11月_孙砚秋

12月 11月 10月 09月 08月 07月 06月 05月 01月

原创 17 ，scala 传入可变参数

1 ，将数组传入到可变参数中去：val saleYm: DataFrame = spark.read.option(“header”,“true”).option(“delimiter”,",").parquet(arrPath:_*)

2019-11-23 18:49:50 708

原创 14 ，spark 的文件读取与分块机制：

1 ，常用文件类型：csv ，gz ，parquet2 ，gz ：一种压缩文件 ( 压缩比很大 )读取 gz ：就像读取普通文件一样 ( 因为 spark 底层为我们做了处理 )我们的 gz 文件：他是一个 csv 压缩来的文件。语法：val stock: DataFrame = spark.read.option("header","true").option("de...

2019-11-22 07:20:16 1000

原创 20 ，aws 创建 mysql ：

1 ，网址：https://cn-northwest-1.console.amazonaws.cn/rds/home?region=cn-northwest-1#databases:2 ，创建：下一步即可

2019-11-15 15:54:03 142

原创 3 ，过滤 - filter ，连接 - join ，排序，查看前 10

1 ，查看前 10 ：resUserRDD.take(10)

2019-11-15 11:40:18 228

原创 2 ，实验数据，top10 ，bottom10

1 ，用户数据： users.dat ( 6040 条 )userid::gender::age::occupation::zip-code1::F::1::10::480672::M::56::16::700723::M::25::15::551172 ，评分数据： ratings.dat ( 1000209 条 )userid::movieid::rating::timest...

2019-11-15 11:17:56 796

原创 0 ，调优

1 ，文件类型： No gz结论：不要 gz ，如果有 gz ，我们要先进行预处理，然后再进行运算。原因： gz 不支持分块，我们要对他进行解压，然后才开始正常使用。2 ，存储类型： parquet结论：列式存储原因： spark 的专用存储方式，会大大提高效率...

2019-11-15 11:14:04 52

原创 1 ，数据来源

1 ，数据来自哪里：美国名尼苏达大学。以研究为目的，搜集的实验性数据。2 ，网址：电影网数据：https://grouplens.org/datasets/movielens/其它各类数据：https://www.kaggle.com/datasets3 ，得到：...

2019-11-14 17:58:17 192

Typora-课件.zip

一款很好用的工具，很多人在使用，这个是 typora 使用指南，希望对大家有所帮助

2018-11-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人