spark
小白学习指南
@¥#¥%#%
展开
-
【如何把hive表中的数据放入模型中去训练】
网上的都是使用txt导入模型。如下:Classification and regression - Spark 2.2.0 Documentational data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")// Automatically identify categorical features, and index them.// Set maxCategories so feature原创 2021-12-27 11:16:56 · 238 阅读 · 0 评论 -
spark 多分类的特征选择
特征选择好像不是全局的选择原创 2021-12-15 10:59:21 · 1646 阅读 · 1 评论 -
scala加工特征遇到数组越界问题解决
1.在scala加工模型特征过程中,libsvm形式的数据报错内容:executor 40): java.lang.ArrayIndexOutOfBoundsException: 1判断方法:如果部分样本可以跑通,全量数据无法跑通,99%的概率为数据问题。比如分隔符错误划分特征,把不是特征的字段分割为特征。感谢cong哥~...原创 2021-12-06 16:08:24 · 319 阅读 · 0 评论 -
Spark sql :load和save操做--spark学习笔记之一
对于spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作主要用于将DataFrame中的数据保存到文件中。scala实现:package **.tag.testimport org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}.原创 2020-06-03 16:55:22 · 439 阅读 · 0 评论 -
如何提交jar包到集群上执行?如何把电脑本机路径的文件上传到服务器上
如何提交jar包到集群上执行?spark-submit --class 包名+类名 /home/****/myScala.jar> rizhi.txt其中:spark-submit 是命令–class 包名+类名, 包名为jj.tag.test 类名为 DataFrameOperation>rizhi.txt 是把日志打在rizhi.txt文件中*如何将电脑本机路径的文件上传的服务器上?hadoop dfs -put /home/**** hdfs://****其中原创 2020-06-03 14:34:58 · 313 阅读 · 0 评论