![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
Dillon2015
从事视频编码的相关研究。
邮箱:13141211944@163.com
展开
-
spark充分利用所有CPU核Utilizing all CPU cores
Using the parameters to spark-shell or spark-submit, we can ensure that memoryand CPUs are available on the cluster for our application. But that doesn’t guaranteethat all the available memory o翻译 2016-12-05 17:42:18 · 1640 阅读 · 0 评论 -
spark graphx创建
创建graphx1、工厂方法apply定义在Graph中,定义如下:def apply[VD, ED](vertices: RDD[(VertexId, VD)],edges: RDD[Edge[ED]],defaultVertexAttr: VD = null): Graph[VD, ED]参数为两个RDD分别是RDD[(VertexId, VD)]、RDD[原创 2016-12-19 20:25:36 · 1012 阅读 · 0 评论 -
spark ml pipelines
spark ML Pipelines在spark2.0里mllib分为两个包,spark.mllib里是基于RDD的API,spark.ml里是基于 DataFrame的API。官方不会在基于RDD的mllib里添加新特性。所以建议使用ml包。在spark2.2时基于RDD的API会被废弃,到spark3.0会被彻底移除。Pipelines主要概念DataFrame: This ML API us翻译 2017-03-21 17:50:24 · 1217 阅读 · 0 评论 -
RDD转换为DataFrame
RDD转换为DataFrame今天在使用spark处理movielens数据集时,由于要在数据集中添加一列,所以不能直接读取数据集生成DataFrame,需要在生成DataFrame之前预处理一下数据集添加一列。所以我就以RDD的方式读入数据,并作相应处理,处理后需要将RDD转换为DataFrame以方便使用ml的API。 将RDD转换为DataFrame有两种方式:利用java的反射机制。利用原创 2017-03-29 19:03:22 · 7768 阅读 · 0 评论 -
spark Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Re
在windows上运行spark2.0的ml算法报错:Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: file:F:/program/MyPrograms/spark-warehouse错误位置原创 2017-03-20 23:38:50 · 4277 阅读 · 0 评论