0. 说明 TTS 中前端很重要的工作 看上去很简单, 但其实特别特别复杂, 特别麻烦, 特别难目前如 Crystal, 都是有大约 300 条的规范文件, 通过 Rule 来解决这些问题那么基于数据的方法, 都有哪些呢, 能不能完全暴力堆数据, 通过覆盖和训练来完成呢?而且这个貌似是一个一劳永逸的过程, 并不像 TTS 每个人都有特点, 需要训练自己的 TTS 的难点一样 1. 问题背景