![](https://img-blog.csdnimg.cn/20191112102940107.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
spark
_Lxuex
do something ,please
展开
-
RDD算子
Transformation算子RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些 应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时, 这些转换才会真正运行。这种设计让Spark更加有效率地运行。转换含义map(func)返回一个新的RDD,该RDD由每一个输 入元素经过func函数转...原创 2019-10-10 10:27:01 · 123 阅读 · 0 评论 -
DataFrame API 实战
数据集…这是练习CF的数据集…直接拿来用了MovieLens 1M Dataset文本格式:users.datUserID::Gender::Age::Occupation::Zip-codemovies.datMovieID::Title::Genresratings.datUserID::MovieID::Rating::Timestamp因为SparkSession对读取文...原创 2019-11-07 10:45:50 · 295 阅读 · 0 评论 -
DataFrame API 操作
测试文本{"name":"Michael","age": 29}{"name":"Andy", "age":30}{"name":"Justin", "age":19}读取文件:val df: DataFrame = session.read.json("src/file/sql/people.json")1.printSchema()官方解释:Prints the plans ...原创 2019-11-06 20:07:37 · 772 阅读 · 0 评论