机器学习-离线运算

九八年的尾巴

于 2020-10-13 12:07:10 发布

阅读量137

点赞数

分类专栏：机器学习文章标签：大数据 spark 机器学习深度学习

本文链接：https://blog.csdn.net/q736317048/article/details/109048484

版权

本文探讨了机器学习中的离线Pipeline，它用于整合多种算法以实现高效批量处理。Pipeline通过将不同步骤串联，使得大数据分析和深度学习任务能够在Spark等平台上便捷地进行离线运算。

摘要由CSDN通过智能技术生成

pipeline：通道
作用：整合其它算法一起执行

import org.ansj.recognition.impl.StopRecognition
import org.ansj.splitWord.analysis.ToAnalysis
import org.apache.spark.ml.Pipeline
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.feature.{HashingTF, IDF}
import org.apache.spark.sql.SparkSession

import scala.util.matching.Regex

/***
  * 判断评论是正向还是负向的
  */
object PipelineDemo {
  def main(args: Array[String]): Unit = {
    //读取数据
    val spark = SparkSession.builder()
      .appName("news")
      .master("local")
      .getOrCreate()
    //读取的文件是txt格式的 最好用spark.contxt方式去读取
    val sc = spark.sparkContext
    //读取负极
    val negData = sc.textFile("data\\news\\trainNeg.txt").map((_,1))
    //读取积极
    val posData = sc.textFile("data\\news\\trainPos.txt").map((_,1))
    //将两个集合结合在一起
    val newsData = negData