sparkml
你看这人,真菜
没啥就是个菜鸡
展开
-
spark-submit运行sparkml 程序
编写test1.py 文件内容如下:from pyspark.ml.linalg import Vectorsfrom pyspark.ml.classification import LogisticRegressionfrom pyspark import SparkContext, SparkConf, SQLContext# Prepare training data from a...原创 2020-05-24 17:20:45 · 207 阅读 · 0 评论 -
如何上传文件到hdfs?
是在学习sparkml的时候,产生了 hadf上没有数据文件的错误,如下图:发现错误之后,决定按照文件夹,上传文件到hdfs上。打开hadoop 所在的文件目录查看当前目录信息hdfs dfs -ls /运行后产生下面的效果:3 在hdfs上创建新的文件夹这里创建的为aaahdfs dfs -mkdir /aaa4 在本地创建一个新的文件夹这里创建的为aaa, 建...转载 2019-08-08 16:19:31 · 26115 阅读 · 0 评论 -
sparkml 实例文件位置及如何运行实例
纯属踩坑记录。spark本身就携带很多ml实例,java 文件位置在spark的根目录下面,有个examples文件夹,所有的实例都在里面这里以java文件进行查找看看在 cd examples/src/main/java/org/apache/spark/examples/ 目录下进入ml文件夹,就可以看到系统给的java的sparkml实例,如下图:数据存放位置在s...原创 2019-08-08 16:31:22 · 593 阅读 · 0 评论 -
Spark MLlib 概况了解
MLlib是Spark的机器学习(Machine Learning)库,旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以下几方面的内容:算法工具:常用的学习算法,如分类、回归、聚类和协同过滤; 特征化工具:特征提取、转化、降维,和选择工具;...转载 2019-08-27 15:06:13 · 192 阅读 · 0 评论