18、Scala中的DSL、解析器组合器与构建工具

dd012

于 2025-12-03 09:56:27 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏：深入浅出Scala编程文章标签： Scala DSL 解析器组合器

本文链接：https://blog.csdn.net/dd012/article/details/155666811

深入浅出Scala编程专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

Scala中的DSL、解析器组合器与构建工具

1. Scala中的DSL与时间跨度DSL

在Scala中，我们可以定义非常简洁的特定领域语言（DSL）。例如，在时间跨度方面，我们可以这样操作：

import java.util.Date
val d = new Date("January 2, 2005")
val lng: Long = 7.days + 2.hours + 4.minutes

这里我们定义了一个很好的时间跨度DSL，并且它在必要时会自动转换为 Long 类型。Scala的隐式转换使得DSL的定义变得非常简单和简洁，但选择合适的隐式转换以及设计DSL需要花费时间和精力进行思考。

2. 外部DSL

外部DSL需要构建自己的语言处理基础设施，包括解析器、词法分析器和处理逻辑。我们需要定义语法规则，例如Backus–Naur Form（BNF），来成功解析脚本或意义。而内部DSL可以从底层宿主语言免费获得这些基础设施，但外部DSL则需要从头开始构建。

在Scala中，解析器组合器与BNF语法的定义非常接近，在编写外部DSL时可以提供非常简洁和优雅的代码。外部DSL有独立的词法分析、解析、解释、编译和代码生成基础设施。编写外部DSL的解析器时，可以使用像Antlr这样的解析器生成工具，但Scala自带了强大的解析器组合器库，可用于解析大多数具有上下文无关语法的外部DSL。

3. 解析器组合器

解析器组合器是函数式编程的重要应用之一。它为设计外部DSL提供了内部DSL，这样我们就无需像前面提到的那样从头构建语言基础设施。解析器组合器是解析器的构建块，处理特定输入的解析器可以组合成更大表达式的解析器组合器。

Scala的解析器组合器库使编写解析器变得简单，而且由于解析器是用Scala编写的，只有一个编译步骤，还能享受到Scala类型安全的所有好处。

4. 高阶函数与组合器

4.1 高阶函数

高阶函数是指那些接受函数作为参数的函数或方法。例如 List.map 就是一个高阶函数：

scala> List(1, 2, 3).map(_ + 1)
res0: List[Int] = List(2, 3, 4)

我们还可以组合函数：

scala> def plus1(in: Int) = in + 1
plus1: (Int)Int
scala> def twice(in: Int) = in * 2
twice: (Int)Int
scala> val addDouble = plus1 _ andThen twice
addDouble: (Int) => Int = <function>
scala> List(1,2,3).map(addDouble)
res2: List[Int] = List(4, 6, 8)

在这个例子中，我们由 plus1 和 twice 两个函数组合成了 addDouble 函数。我们可以组合复杂的函数，甚至根据用户输入动态组合函数。

4.2 组合器

组合器是一种只接受其他函数作为参数并只返回函数的函数。它允许我们将小函数组合成大函数。在解析器组合器库中，我们可以将匹配单个字符或小字符组的小函数组合成能够解析复杂文档的大函数。

例如，要解析包含 true 或 false 的字符流，我们可以这样写：

def parse = (elem('t') ~ elem('r') ~ elem('u') ~ elem('e')) |
(elem('f') ~ elem('a') ~ elem('l') ~ elem('s') ~ elem('e'))

这里的 elem 方法返回一个 Function[Seq[Char], ParseResult[Char]] 的子类，并且有 ~ 和 | 方法。 ~ 方法表示“接着”， | 运算符用于组合两个组合函数。

利用Scala的隐式功能，我们可以让语法定义更简单：

def p2 = ('t' ~ 'r' ~ 'u' ~ 'e') |
('f' ~ 'a' ~ 'l' ~ 's' ~ 'e')

为了让解析器返回布尔值，我们可以这样定义：

def p3: Parser[Boolean] = ('t' ~ 'r' ~ 'u' ~ 'e' ^^^ true) |
('f' ~ 'a' ~ 'l' ~ 's' ~ 'e' ^^^ false)

^^^ 方法表示如果匹配输入，则返回这个常量。

我们还可以定义解析正数字和所有数字的解析器，并将其转换为 Long 类型：

def positiveDigit = elem('1') | '2' | '3' | '4' | '5' | '6' | '7' | '8' | '9'
def digit = positiveDigit | '0'
def long1: Parser[Long] = positiveDigit ~ rep(digit) ^^ {
  case (first: Char) ~ (rest: List[Char]) => (first :: rest).mkString.toLong
}

为了避免 Long 类型溢出，我们可以这样优化：

lazy val long2: Parser[Long] = positiveDigit ~ rep(digit) ^? {
  case first ~ rest if rest.length < 18 => (first :: rest).mkString.toLong
}

5. 计算器解析器

我们可以使用解析器组合器来构建一个四则运算计算器。首先，我们定义一个实用的特质 RunParser ，它可以混入任何解析器并添加一个 run 方法：

import scala.util.parsing.combinator._
trait RunParser {
  this: RegexParsers =>
  type RootType
  def root: Parser[RootType]
  def run(in: String): ParseResult[RootType] = parseAll(root, in)
}

接着，我们描述计算器的工作原理。求和表达式是一个乘积表达式后面跟着零个或多个 + 或 - 符号，再跟着一个乘积表达式；乘积表达式是一个因子后面跟着零个或多个 * 或 / 符号，再跟着另一个因子；因子是一个数字或括号括起来的求和表达式。用BNF表示如下：

<sumExpr> ::= <prodExpr> [("+" <prodExpr>) | ("-" <prodExpr>)]
<prodExpr> ::= <factor> [("*" <factor>) | ("/" <factor>)]
<factor> ::= <float> | ("(" <sumExpr> ")")

将其转换为Scala代码如下：

object CalcSkel extends JavaTokenParsers with RunParser {
  lazy val sumExpr = multExpr ~ rep("+" ~ multExpr | "-" ~ multExpr)
  lazy val multExpr = factor ~ rep("*" ~ factor | "/" ~ factor)
  lazy val factor: Parser[Any] = floatingPointNumber | "(" ~ sumExpr ~ ")"
  type RootType = Any
  def root = sumExpr
}

在REPL中测试：

scala> CalcSkel.run("1")
res0: [1.2] parsed: ((1~List())~List())
scala> CalcSkel.run("1 + 1")
res1: [1.6] parsed: ((1~List())~List((+~(1~List()))))
scala> CalcSkel.run("1 + 1 / 17")
res2: [1.11] parsed: ((1~List())~List((+~(1~List((/~17))))))
scala> CalcSkel.run("1 + 1 / archer")
res3: CalcSkel.ParseResult[CalcSkel.RootType] =
[1.9] failure: `(' expected but ` ' found
1 + 1 / archer
^

可以看到，我们用英语和BNF描述的解析规则与Scala代码非常接近，并且能正确解析有效输入，拒绝错误输入，但结果比较难读。

接下来，我们添加一个函数将解析结果转换为 Double 类型：

import scala.util.parsing.combinator._
object Calc extends JavaTokenParsers with RunParser {
  lazy val sumExpr = prodExpr ~
    rep("+" ~> prodExpr ^^ (d => (x: Double) => x + d) |
      "-" ~> prodExpr ^^ (d => (x: Double) => x - d)) ^^ {
      case seed ~ fs => fs.foldLeft(seed)((a, f) => f(a))
    }
  lazy val prodExpr = factor ~
    rep("*" ~> factor ^^ (d => (x: Double) => x * d) |
      "/" ~> factor ^^ (d => (x: Double) => x / d)) ^^ {
      case seed ~ fs => fs.foldLeft(seed)((a, f) => f(a))
    }
  lazy val factor: Parser[Double] =
    floatingPointNumber ^^ (_.toDouble) | "(" ~> sumExpr <~ ")"
  type RootType = Double
  def root = sumExpr
}

在REPL中测试：

scala> Calc.run("1")
res0: Calc.ParseResult[Calc.RootType] = [1.2] parsed: 1.0
scala> Calc.run("1 + 1")
res1: Calc.ParseResult[Calc.RootType] = [1.6] parsed: 2.0
scala> Calc.run("1 + 1 / 17")
res2: Calc.ParseResult[Calc.RootType] = [1.11] parsed: 1.0588235294117647
scala> Calc.run("(1 + 1) / 17")
res3: Calc.ParseResult[Calc.RootType] = [1.13] parsed: 0.11764705882352941

6. 简单构建工具 - SBT

软件开发通常包括将源代码编译为二进制代码、执行测试、将二进制代码打包成存档文件以及将存档文件部署到生产系统等活动。“构建”指的是编译后的代码被打包并部署到生产环境，是一个可交付成果的技术术语。可交付成果是利益相关者期望的可执行代码集，而构建过程通常包括编译、测试、打包和部署。

构建自动化是指通过构建工具自动执行上述构建过程。这些构建工具要求我们在一个名为构建定义的工件中定义项目配置和依赖项。

依赖项是指软件组件之间的相互依赖关系，用耦合度来衡量。耦合度是软件组件之间相互依赖的程度。

常见的构建工具时间线中，Make开创了构建自动化并从一开始就支持依赖管理，至今在Unix系统中仍被广泛使用。除了Make，其他构建工具在JVM领域也很受欢迎。

下面是一个简单的构建过程流程图：

graph LR
    A[源代码] --> B[编译]
    B --> C[测试]
    C --> D[打包]
    D --> E[部署]

总的来说，Scala的解析器组合器库展示了Scala语法的灵活性、隐式转换的实用性和函数组合的强大功能。它是特定领域语言的一个优秀示例，其语法与BNF几乎一一对应。使用Scala的解析器组合器库而不是像ANTLR这样的工具，意味着我们和团队可以使用单一语言来描述系统，能够利用语言的类型安全特性。在软件开发中，SBT等构建工具可以帮助我们自动化构建过程，提高开发效率。

Scala中的DSL、解析器组合器与构建工具

7. 构建工具的重要性及常见类型

构建工具在软件开发中起着至关重要的作用，它能够自动化软件开发中的多个关键步骤，提高开发效率、减少人为错误。以下是对构建工具相关内容的详细介绍：
- 构建工具的作用 ：构建工具可以将源代码编译成可执行的二进制代码，执行各种测试以确保代码的质量，将编译后的代码打包成便于分发和部署的存档文件，并将这些存档文件部署到生产系统中。通过自动化这些过程，开发人员可以将更多的精力放在代码的编写和功能的实现上。
- 常见构建工具对比 ：
| 构建工具 | 特点 | 适用场景 |
| ---- | ---- | ---- |
| Make | 开创了构建自动化，支持依赖管理，在Unix系统中广泛使用，配置文件语法相对简单，但对于复杂项目的管理能力有限。 | 适用于C、C++等传统项目，尤其是Unix环境下的项目。 |
| ANTLR | 专门用于生成解析器的工具，对于需要处理复杂语法的项目非常有用，但需要额外学习其语法规则。 | 适用于需要自定义解析器的项目，如编译器、解释器等。 |
| SBT（Scala Build Tool） | 专为Scala项目设计，与Scala语言集成度高，支持多模块项目，能够自动处理依赖关系，提供丰富的插件生态系统。 | 适用于Scala项目的开发，无论是小型项目还是大型企业级项目。 |

8. SBT的基本使用

SBT是Scala项目中常用的构建工具，下面介绍其基本使用方法：
- 项目初始化 ：首先，确保你已经安装了SBT。创建一个新的Scala项目目录，在该目录下创建 build.sbt 文件，这是SBT的核心配置文件。以下是一个简单的 build.sbt 示例：

name := "MyScalaProject"

version := "1.0"

scalaVersion := "2.13.8"

在这个示例中， name 指定了项目的名称， version 指定了项目的版本号， scalaVersion 指定了使用的Scala版本。
- 依赖管理 ：在 build.sbt 中添加依赖项非常简单。例如，如果你需要使用ScalaTest进行单元测试，可以添加以下依赖：

libraryDependencies += "org.scalatest" %% "scalatest" % "3.2.12" % Test

这里的 libraryDependencies 是一个用于管理依赖项的设置， %% 表示使用与项目相同的Scala版本， % 用于指定依赖项的版本号， Test 表示该依赖项仅在测试阶段使用。
- 任务执行 ：SBT提供了一系列内置任务，如编译、测试、打包等。在项目根目录下打开终端，输入以下命令可以执行相应的任务：
- 编译项目 ： sbt compile
- 运行测试 ： sbt test
- 打包项目 ： sbt package

9. SBT的高级特性

除了基本的使用方法，SBT还具有一些高级特性，能够满足更复杂的项目需求：
- 多模块项目支持 ：对于大型项目，通常会将其拆分为多个模块。SBT支持多模块项目的管理，你可以在 build.sbt 中定义多个模块，并指定它们之间的依赖关系。以下是一个简单的多模块项目示例：

lazy val common = (project in file("common"))
  .settings(
    name := "common",
    scalaVersion := "2.13.8"
  )

lazy val app = (project in file("app"))
  .dependsOn(common)
  .settings(
    name := "app",
    scalaVersion := "2.13.8"
  )

在这个示例中， common 模块是一个通用模块， app 模块依赖于 common 模块。
- 插件机制 ：SBT拥有丰富的插件生态系统，你可以通过在 project/plugins.sbt 文件中添加插件依赖来扩展SBT的功能。例如，添加 sbt-assembly 插件可以将项目打包成一个可执行的JAR文件：

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "1.2.0")

添加插件后，在 build.sbt 中进行相应的配置，然后使用 sbt assembly 命令即可生成可执行的JAR文件。

10. 结合解析器组合器与SBT进行项目开发

在实际项目中，我们可以将Scala的解析器组合器与SBT结合使用，构建功能强大的Scala项目。以下是一个简单的步骤示例：
1. 定义解析器 ：使用解析器组合器定义项目所需的解析器，例如前面提到的计算器解析器。
2. 创建SBT项目 ：使用SBT初始化项目，在 build.sbt 中配置项目信息和依赖项。
3. 编写业务逻辑 ：根据项目需求，编写使用解析器的业务逻辑代码。
4. 运行测试 ：使用SBT的测试任务对项目进行测试，确保解析器和业务逻辑的正确性。
5. 打包部署 ：使用SBT的打包任务将项目打包成可执行的JAR文件，并部署到生产环境中。

11. 总结与展望

Scala的解析器组合器和SBT为Scala项目的开发提供了强大的支持。解析器组合器使得编写复杂的解析器变得简单，能够帮助我们处理各种文本解析任务；而SBT则提供了便捷的项目管理和构建自动化功能，提高了开发效率。

在未来的开发中，我们可以进一步探索解析器组合器的高级应用，如处理更复杂的语法结构、实现自定义的解析器优化算法等。同时，随着SBT插件生态系统的不断发展，我们可以利用更多的插件来扩展项目的功能，如集成持续集成工具、代码分析工具等。通过不断学习和实践，我们能够更好地利用Scala的这些特性，开发出高质量、高效率的Scala项目。

以下是一个结合解析器组合器和SBT的项目开发流程图：

graph LR
    A[定义解析器] --> B[创建SBT项目]
    B --> C[编写业务逻辑]
    C --> D[运行测试]
    D --> E[打包部署]

通过以上内容，我们对Scala中的DSL、解析器组合器和SBT有了更深入的了解，希望这些知识能够帮助你在Scala项目开发中取得更好的成果。