【SparkML系列2】DataSource读取图片数据

最新推荐文章于 2024-08-23 10:27:24 发布

周润发的弟弟

最新推荐文章于 2024-08-23 10:27:24 发布

阅读量639

点赞数 8

分类专栏： Spark机器学习文章标签： spark-ml

本文链接：https://blog.csdn.net/qq_33592535/article/details/135961299

版权

Spark机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文介绍了如何在机器学习项目中利用SparkSession加载不同格式的数据，如图像（通过Imagedatasource支持的图像文件）和LIBSVM格式的文本数据。特别提到了使用`image`格式读取图像文件并展示其元数据的方法。

摘要由CSDN通过智能技术生成

DataSource(数据源)

在本节中，我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源，如 Parquet、CSV、JSON 和 JDBC 外，我们还提供了一些专门用于机器学习的数据源。

###Image data source（图像数据源）
该图像数据源用于从目录加载图像文件，它可以通过 Java 库中的 ImageIO 加载压缩图像（jpeg、png 等）到原始图像表示。加载的 DataFrame 有一个 StructType 列：“image”，包含存储为图像模式的图像数据。图像列的模式是：

origin：StringType（表示图像的文件路径）
height：IntegerType（图像的高度）
width：IntegerType（图像的宽度）
nChannels：IntegerType（图像通道的数量）
mode：IntegerType（与 OpenCV 兼容的类型）
data：BinaryType（以 OpenCV 兼容的顺序排列的图像字节：在大多数情况下为逐行 BGR）


import org.apache.spark.sql.SparkSession

/**
 * @description TODO
 * @date 2024/1/31 15:30
 * @author by fangwen1
 */
object ImageDataSource {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .master("local[*]")
      .appName("ImageDataSource")
      .getOrCreate()
    //.format("image") 告诉 Spark 读取器数据是以图像格式存储的，而 .option("dropInvalid", true) 设置了一个选项，指示读取器在加载过程中丢弃任何无效的图像文件。
    val df = spark.read.format("image").option("dropInvalid", true).load("data/mllib/images/origin/kittens")

    df.select("image.origin", "image.width", "image.height", "image.nChannels", "image.mode").show(truncate=false)


    //.format("libsvm") 告诉 Spark 读取器数据是以 LIBSVM 格式存储的，而 .option("numFeatures", "780") 设置了一个选项，指定特征向量的数量为 780。
    val df1 = spark.read.format("libsvm").option("numFeatures", "780").load("data/mllib/sample_libsvm_data.txt")
    df1.show()
  }
}

周润发的弟弟

关注

8
点赞
踩
10

收藏

觉得还不错? 一键收藏
打赏
0
评论
【SparkML系列2】DataSource读取图片数据

该图像数据源用于从目录加载图像文件，它可以通过 Java 库中的 ImageIO 加载压缩图像（jpeg、png 等）到原始图像表示。加载的 DataFrame 有一个 StructType 列：“image”，包含存储为图像模式的图像数据。除了一些通用的数据源，如 Parquet、CSV、JSON 和 JDBC 外，我们还提供了一些专门用于机器学习的数据源。data：BinaryType（以 OpenCV 兼容的顺序排列的图像字节：在大多数情况下为逐行 BGR）
复制链接

扫一扫