定 义 \color{#6495ED}定义 定义 介 绍 \color{#D2691E}介绍 介绍
自 然 语 言 处 理 \color{#6495ED}自然语言处理 自然语言处理, 英 文 \color{#6495ED}英文 英文Natural Language Processing, 简 写 \color{#6495ED}简写 简写NLP。NLP 这 个 \color{#2F4F4F}这个 这个 概 念 \color{#6495ED}概念 概念 本 身 \color{#2F4F4F}本身 本身 过 于 \color{#EE82EE}过于 过于 庞 大 \color{#32CD32}庞大 庞大, 可 以 \color{#D2691E}可以 可以 把 \color{#4682B4}把 把 它 \color{#2F4F4F}它 它 分 成 \color{#D2691E}分成 分成“ 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言” 和 \color{#EE82EE}和 和“ 处 理 \color{#D2691E}处理 处理” 两 \color{#000000}两 两 部 分 \color{#6495ED}部分 部分。 先 \color{#EE82EE}先 先 来 看 \color{#EE82EE}来看 来看 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言。 区 分 \color{#D2691E}区分 区分 于 \color{#4682B4}于 于 计 算 机 语 言 \color{#000000}计算机语言 计算机语言, 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 是 \color{#D2691E}是 是 人 类 \color{#6495ED}人类 人类 发 展 \color{#D2691E}发展 发展 过 程 \color{#6495ED}过程 过程 中 \color{#000000}中 中 形 成 \color{#D2691E}形成 形成 的 \color{#EE82EE}的 的 一 \color{#000000}一 一 种 \color{#000000}种 种 信 息 \color{#6495ED}信息 信息 交 流 \color{#D2691E}交流 交流 的 \color{#EE82EE}的 的 方 式 \color{#6495ED}方式 方式, 包 括 \color{#D2691E}包括 包括 口 语 \color{#6495ED}口语 口语 及 \color{#EE82EE}及 及 书 面 语 \color{#6495ED}书面语 书面语, 反 映 \color{#D2691E}反映 反映 了 \color{#EE82EE}了 了 人 类 \color{#6495ED}人类 人类 的 \color{#EE82EE}的 的 思 维 \color{#6495ED}思维 思维, 都 \color{#EE82EE}都 都 是 \color{#D2691E}是 是 以 \color{#4682B4}以 以 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 的 \color{#EE82EE}的 的 形 式 \color{#6495ED}形式 形式 表 达 \color{#D2691E}表达 表达。
现 在 \color{#9370DB}现在 现在 世 界 \color{#6495ED}世界 世界 上 \color{#000000}上 上 所 有 \color{#EE82EE}所有 所有 的 \color{#EE82EE}的 的 语 种 \color{#6495ED}语种 语种 语 言 \color{#6495ED}语言 语言, 都 \color{#EE82EE}都 都 属 于 \color{#D2691E}属于 属于 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言, 包 括 \color{#D2691E}包括 包括 汉 语 \color{#000000}汉语 汉语、 英 语 \color{#6495ED}英语 英语、 法 语 \color{#6495ED}法语 法语 等 \color{#EE82EE}等 等。 然 后 \color{#EE82EE}然后 然后 再 \color{#EE82EE}再 再 来 看 \color{#EE82EE}来看 来看“ 处 理 \color{#D2691E}处理 处理”。 如 果 \color{#EE82EE}如果 如果 只 是 \color{#EE82EE}只是 只是 人 工 \color{#EE82EE}人工 人工 处 理 \color{#D2691E}处理 处理 的 话 \color{#EE82EE}的话 的话, 那 \color{#2F4F4F}那 那 原 本 \color{#EE82EE}原本 原本 就 \color{#EE82EE}就 就 有 \color{#D2691E}有 有 专 门 \color{#EE82EE}专门 专门 的 \color{#EE82EE}的 的 语 言 学 \color{#6495ED}语言学 语言学 来 \color{#D2691E}来 来 研 究 \color{#D2691E}研究 研究, 也 \color{#EE82EE}也 也 没 \color{#EE82EE}没 没 必 要 \color{#32CD32}必要 必要 特 地 \color{#EE82EE}特地 特地 强 调 \color{#D2691E}强调 强调“ 自 然 \color{#6495ED}自然 自然”。 因 此 \color{#EE82EE}因此 因此, 这 个 \color{#2F4F4F}这个 这个“ 处 理 \color{#D2691E}处理 处理” 必 须 \color{#EE82EE}必须 必须 是 \color{#D2691E}是 是 计 算 机 \color{#6495ED}计算机 计算机 处 理 \color{#D2691E}处理 处理 的 \color{#EE82EE}的 的。 但 \color{#EE82EE}但 但 计 算 机 \color{#6495ED}计算机 计算机 毕 竟 \color{#EE82EE}毕竟 毕竟 不 是 \color{#EE82EE}不是 不是 人 \color{#6495ED}人 人, 无 法 \color{#D2691E}无法 无法 像 \color{#D2691E}像 像 人 \color{#6495ED}人 人 一 样 \color{#EE82EE}一样 一样 处 理 \color{#D2691E}处理 处理 文 本 \color{#6495ED}文本 文本, 需 要 \color{#D2691E}需要 需要 有 \color{#D2691E}有 有 自 己 \color{#2F4F4F}自己 自己 的 \color{#EE82EE}的 的 处 理 \color{#D2691E}处理 处理 方 式 \color{#6495ED}方式 方式。 因 此 \color{#EE82EE}因此 因此 自 然 语 言 处 理 \color{#6495ED}自然语言处理 自然语言处理, 简 单 \color{#32CD32}简单 简单 来 说 \color{#EE82EE}来说 来说 即 \color{#D2691E}即 即 是 \color{#D2691E}是 是 计 算 机 \color{#6495ED}计算机 计算机 接 受 \color{#D2691E}接受 接受 用 户 \color{#6495ED}用户 用户 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 形 式 \color{#6495ED}形式 形式 的 \color{#EE82EE}的 的 输 入 \color{#D2691E}输入 输入, 并 \color{#EE82EE}并 并 在 \color{#4682B4}在 在 内 部 \color{#000000}内部 内部 通 过 \color{#4682B4}通过 通过 人 类 \color{#6495ED}人类 人类 所 \color{#EE82EE}所 所 定 义 \color{#6495ED}定义 定义 的 \color{#EE82EE}的 的 算 法 \color{#6495ED}算法 算法 进 行 \color{#D2691E}进行 进行 加 工 \color{#D2691E}加工 加工、 计 算 \color{#D2691E}计算 计算 等 \color{#EE82EE}等 等 系 列 \color{#6495ED}系列 系列 操 作 \color{#D2691E}操作 操作, 以 \color{#4682B4}以 以 模 拟 \color{#D2691E}模拟 模拟 人 类 \color{#6495ED}人类 人类 对 \color{#4682B4}对 对 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 的 \color{#EE82EE}的 的 理 解 \color{#D2691E}理解 理解, 并 \color{#EE82EE}并 并 返 回 \color{#D2691E}返回 返回 用 户 \color{#6495ED}用户 用户 所 \color{#EE82EE}所 所 期 望 \color{#D2691E}期望 期望 的 \color{#EE82EE}的 的 结 果 \color{#6495ED}结果 结果。 正 如 \color{#D2691E}正如 正如 机 械 \color{#6495ED}机械 机械 解 放 \color{#D2691E}解放 解放 人 类 \color{#6495ED}人类 人类 的 \color{#EE82EE}的 的 双 手 \color{#6495ED}双手 双手 一 样 \color{#EE82EE}一样 一样, 自 然 语 言 处 理 \color{#6495ED}自然语言处理 自然语言处理 的 \color{#EE82EE}的 的 目 的 \color{#6495ED}目的 目的 在 于 \color{#D2691E}在于 在于 用 \color{#4682B4}用 用 计 算 机 \color{#6495ED}计算机 计算机 代 替 \color{#D2691E}代替 代替 人 工 \color{#EE82EE}人工 人工 来 \color{#D2691E}来 来 处 理 \color{#D2691E}处理 处理 大 规 模 \color{#EE82EE}大规模 大规模 的 \color{#EE82EE}的 的 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 信 息 \color{#6495ED}信息 信息。 它 \color{#2F4F4F}它 它 是 \color{#D2691E}是 是 人 工 智 能 \color{#6495ED}人工智能 人工智能、 计 算 机 \color{#6495ED}计算机 计算机 科 学 \color{#6495ED}科学 科学、 信 息 工 程 \color{#4169E1}信息工程 信息工程 的 \color{#EE82EE}的 的 交 叉 \color{#D2691E}交叉 交叉 领 域 \color{#6495ED}领域 领域, 涉 及 \color{#D2691E}涉及 涉及 统 计 学 \color{#6495ED}统计学 统计学、 语 言 学 \color{#6495ED}语言学 语言学 等 \color{#EE82EE}等 等 的 \color{#EE82EE}的 的 知 识 \color{#6495ED}知识 知识。 由 于 \color{#4682B4}由于 由于 语 言 \color{#6495ED}语言 语言 是 \color{#D2691E}是 是 人 类 \color{#6495ED}人类 人类 思 维 \color{#6495ED}思维 思维 的 \color{#EE82EE}的 的 证 明 \color{#D2691E}证明 证明, 故 \color{#EE82EE}故 故 自 然 语 言 处 理 \color{#6495ED}自然语言处理 自然语言处理 是 \color{#D2691E}是 是 人 工 智 能 \color{#6495ED}人工智能 人工智能 的 \color{#EE82EE}的 的 最 高 \color{#32CD32}最高 最高 境 界 \color{#6495ED}境界 境界, 被 \color{#4682B4}被 被 誉 为 \color{#D2691E}誉为 誉为“ 人 工 智 能 \color{#6495ED}人工智能 人工智能 皇 冠 \color{#6495ED}皇冠 皇冠 上 \color{#000000}上 上 的 \color{#EE82EE}的 的 明 珠 \color{#6495ED}明珠 明珠”。
发 展 \color{#D2691E}发展 发展 历 程 \color{#6495ED}历程 历程
1948 \color{#000000}1948 1948 年 \color{#000000}年 年, 香 \color{#32CD32}香 香 农 \color{#6495ED}农 农 提 出 \color{#D2691E}提出 提出 信 息 \color{#6495ED}信息 信息 熵 \color{#6495ED}熵 熵 的 \color{#EE82EE}的 的 概 念 \color{#6495ED}概念 概念。 此 时 \color{#2F4F4F}此时 此时 尚 未 \color{#EE82EE}尚未 尚未 有 \color{#D2691E}有 有NLP, 但 \color{#EE82EE}但 但 由 于 \color{#4682B4}由于 由于 熵 \color{#6495ED}熵 熵 也 \color{#EE82EE}也 也 是 \color{#D2691E}是 是NLP 的 \color{#EE82EE}的 的 基 石 \color{#6495ED}基石 基石 之 一 \color{#2F4F4F}之一 之一, 在 \color{#4682B4}在 在 此 \color{#2F4F4F}此 此 也 \color{#EE82EE}也 也 算 作 \color{#D2691E}算作 算作 是 \color{#D2691E}是 是NLP 的 \color{#EE82EE}的 的 发 展 \color{#D2691E}发展 发展 历 程 \color{#6495ED}历程 历程。
按 照 \color{#4682B4}按照 按照 维 基 \color{#4B0082}维基 维基 百 科 \color{#6495ED}百科 百科 的 \color{#EE82EE}的 的 说 法 \color{#6495ED}说法 说法,NLP 发 源 \color{#D2691E}发源 发源 于 \color{#4682B4}于 于 1950 \color{#000000}1950 1950 年 \color{#000000}年 年。 图 灵 \color{#000000}图灵 图灵 于 \color{#4682B4}于 于 该 \color{#2F4F4F}该 该 年 \color{#000000}年 年 提 出 \color{#D2691E}提出 提出“ 图 灵 \color{#000000}图灵 图灵 测 试 \color{#D2691E}测试 测试”, 用 以 \color{#EE82EE}用以 用以 检 验 \color{#D2691E}检验 检验 计 算 机 \color{#6495ED}计算机 计算机 是 否 \color{#D2691E}是否 是否 真 正 \color{#EE82EE}真正 真正 拥 有 \color{#D2691E}拥有 拥有 智 能 \color{#6495ED}智能 智能。
NLP 规 则 \color{#6495ED}规则 规则 时 代 \color{#6495ED}时代 时代
1950 \color{#000000}1950 1950- 1970 \color{#000000}1970 1970 年 \color{#000000}年 年, 模 拟 \color{#D2691E}模拟 模拟 人 类 \color{#6495ED}人类 人类 学 习 \color{#D2691E}学习 学习 语 言 \color{#6495ED}语言 语言 的 \color{#EE82EE}的 的 习 惯 \color{#6495ED}习惯 习惯, 以 \color{#4682B4}以 以 语 法 \color{#6495ED}语法 语法 规 则 \color{#6495ED}规则 规则 为 \color{#4682B4}为 为 主 流 \color{#6495ED}主流 主流。 除 了 \color{#4682B4}除了 除了 参 照 \color{#D2691E}参照 参照 乔 姆 \color{#4B0082}乔姆 乔姆 斯 基 \color{#4B0082}斯基 斯基 文 法 \color{#6495ED}文法 文法 规 则 \color{#6495ED}规则 规则 定 义 \color{#6495ED}定义 定义 的 \color{#EE82EE}的 的 上 下 文 \color{#6495ED}上下文 上下文 无 关 \color{#D2691E}无关 无关 文 法 \color{#6495ED}文法 文法 规 则 \color{#6495ED}规则 规则 外 \color{#000000}外 外,NLP 领 域 \color{#6495ED}领域 领域 几 乎 \color{#EE82EE}几乎 几乎 毫 无 \color{#D2691E}毫无 毫无 建 树 \color{#6495ED}建树 建树。
NLP 统 计 \color{#D2691E}统计 统计 时 代 \color{#6495ED}时代 时代
20 \color{#000000}20 20 世 纪 \color{#000000}世纪 世纪 70 \color{#000000}70 70 年 代 \color{#6495ED}年代 年代 开 始 \color{#D2691E}开始 开始 统 计 \color{#D2691E}统计 统计 学 派 \color{#6495ED}学派 学派 盛 行 \color{#D2691E}盛行 盛行,NLP 转 向 \color{#D2691E}转向 转向 统 计 \color{#D2691E}统计 统计 方 法 \color{#6495ED}方法 方法, 此 时 \color{#2F4F4F}此时 此时 的 \color{#EE82EE}的 的 核 心 \color{#6495ED}核心 核心 是 \color{#D2691E}是 是 以 \color{#4682B4}以 以 具 有 \color{#D2691E}具有 具有 马 尔 \color{#4B0082}马尔 马尔 科 夫 \color{#4B0082}科夫 科夫 性 质 \color{#6495ED}性质 性质 的 \color{#EE82EE}的 的 模 型 \color{#6495ED}模型 模型( 包 括 \color{#D2691E}包括 包括 语 言 \color{#6495ED}语言 语言 模 型 \color{#6495ED}模型 模型, 隐 \color{#D2691E}隐 隐 马 尔 \color{#4B0082}马尔 马尔 可 夫 \color{#6495ED}可夫 可夫 模 型 \color{#6495ED}模型 模型 等 \color{#EE82EE}等 等)。
2001 \color{#000000}2001 2001 年 \color{#000000}年 年, 神 经 \color{#6495ED}神经 神经 语 言 \color{#6495ED}语言 语言 模 型 \color{#6495ED}模型 模型, 将 \color{#EE82EE}将 将 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 和 \color{#EE82EE}和 和 语 言 \color{#6495ED}语言 语言 模 型 \color{#6495ED}模型 模型 相 结 合 \color{#6495ED}相结合 相结合, 应 该 \color{#D2691E}应该 应该 是 \color{#D2691E}是 是 历 史 \color{#6495ED}历史 历史 上 \color{#000000}上 上 第 一 \color{#000000}第一 第一 次 \color{#000000}次 次 用 \color{#4682B4}用 用 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 得 到 \color{#D2691E}得到 得到 词 \color{#6495ED}词 词 嵌 入 \color{#D2691E}嵌入 嵌入 矩 阵 \color{#6495ED}矩阵 矩阵, 是 \color{#D2691E}是 是 后 来 \color{#9370DB}后来 后来 所 有 \color{#EE82EE}所有 所有 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 词 \color{#6495ED}词 词 嵌 入 \color{#D2691E}嵌入 嵌入 技 术 \color{#6495ED}技术 技术 的 \color{#EE82EE}的 的 实 践 \color{#D2691E}实践 实践 基 础 \color{#6495ED}基础 基础。 也 \color{#EE82EE}也 也 证 明 了 \color{#D2691E}证明了 证明了 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 建 模 \color{#000000}建模 建模 语 言 \color{#6495ED}语言 语言 模 型 \color{#6495ED}模型 模型 的 \color{#EE82EE}的 的 可 能 性 \color{#6495ED}可能性 可能性。
2001 \color{#000000}2001 2001 年 \color{#000000}年 年, 条 件 \color{#6495ED}条件 条件 随 \color{#4682B4}随 随 机 场 \color{#6495ED}机场 机场CRF, 从 \color{#4682B4}从 从 提 出 \color{#D2691E}提出 提出 开 始 \color{#D2691E}开始 开始 就 \color{#EE82EE}就 就 一 直 \color{#EE82EE}一直 一直 是 \color{#D2691E}是 是 序 列 \color{#6495ED}序列 序列 标 注 \color{#D2691E}标注 标注 问 题 \color{#6495ED}问题 问题 的 \color{#EE82EE}的 的 利 器 \color{#6495ED}利器 利器, 即 便 \color{#EE82EE}即便 即便 是 \color{#D2691E}是 是 深 度 \color{#6495ED}深度 深度 学 习 \color{#D2691E}学习 学习 的 \color{#EE82EE}的 的 现 在 \color{#9370DB}现在 现在 也 \color{#EE82EE}也 也 常 加 \color{#4B0082}常加 常加 在 \color{#4682B4}在 在 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 的 \color{#EE82EE}的 的 上 面 \color{#000000}上面 上面, 用 以 \color{#EE82EE}用以 用以 修 正 \color{#D2691E}修正 修正 输 出 \color{#D2691E}输出 输出 序 列 \color{#6495ED}序列 序列。
2003 \color{#000000}2003 2003 年 \color{#000000}年 年,LDA 模 型 \color{#6495ED}模型 模型 提 出 \color{#D2691E}提出 提出, 概 率 \color{#6495ED}概率 概率 图 \color{#6495ED}图 图 模 型 \color{#6495ED}模型 模型 大 放 异 彩 \color{#D2691E}大放异彩 大放异彩,NLP 从 此 \color{#EE82EE}从此 从此 进 入 \color{#D2691E}进入 进入“ 主 题 \color{#6495ED}主题 主题” 时 代 \color{#6495ED}时代 时代。Topic 模 型 \color{#6495ED}模型 模型 变 种 \color{#6495ED}变种 变种 极 \color{#EE82EE}极 极 多 \color{#32CD32}多 多, 参 数 \color{#6495ED}参数 参数 模 型 \color{#6495ED}模型 模型LDA, 非 \color{#EE82EE}非 非 参 数 \color{#6495ED}参数 参数 模 型 \color{#6495ED}模型 模型HDP, 有 \color{#D2691E}有 有 监 督 \color{#D2691E}监督 监督 的 \color{#EE82EE}的 的LabelLDA,PLDA 等 \color{#EE82EE}等 等。
2008 \color{#000000}2008 2008 年 \color{#000000}年 年, 分 布 式 \color{#EE82EE}分布式 分布式 假 设 \color{#6495ED}假设 假设 理 论 \color{#6495ED}理论 理论 提 出 \color{#D2691E}提出 提出, 为 \color{#4682B4}为 为 词 \color{#6495ED}词 词 嵌 入 \color{#D2691E}嵌入 嵌入 技 术 \color{#6495ED}技术 技术 的 \color{#EE82EE}的 的 理 论 \color{#6495ED}理论 理论 基 础 \color{#6495ED}基础 基础。
在 \color{#4682B4}在 在 统 计 \color{#D2691E}统计 统计 时 代 \color{#6495ED}时代 时代,NLP 专 注 \color{#D2691E}专注 专注 于 \color{#4682B4}于 于 数 据 \color{#6495ED}数据 数据 本 身 \color{#2F4F4F}本身 本身 的 \color{#EE82EE}的 的 分 布 \color{#D2691E}分布 分布, 如 何 \color{#2F4F4F}如何 如何 从 \color{#4682B4}从 从 文 本 \color{#6495ED}文本 文本 的 \color{#EE82EE}的 的 分 布 \color{#D2691E}分布 分布 中 \color{#000000}中 中 设 计 \color{#D2691E}设计 设计 更 多 \color{#32CD32}更多 更多 更 好 \color{#EE82EE}更好 更好 的 \color{#EE82EE}的 的 特 征 \color{#6495ED}特征 特征 模 式 \color{#6495ED}模式 模式 是 \color{#D2691E}是 是 这 \color{#2F4F4F}这 这 时 期 \color{#6495ED}时期 时期 的 \color{#EE82EE}的 的 主 流 \color{#6495ED}主流 主流。 在 \color{#4682B4}在 在 这 \color{#2F4F4F}这 这 期 间 \color{#000000}期间 期间, 还 有 \color{#D2691E}还有 还有 其 他 \color{#2F4F4F}其他 其他 许 多 \color{#000000}许多 许多 经 典 \color{#6495ED}经典 经典 的 \color{#EE82EE}的 的NLP 传 统 \color{#6495ED}传统 传统 算 法 \color{#6495ED}算法 算法 诞 生 \color{#D2691E}诞生 诞生, 包 括 \color{#D2691E}包括 包括tfidf、BM 25 \color{#000000}25 25、PageRank、LSI、 向 量 \color{#6495ED}向量 向量 空 间 \color{#6495ED}空间 空间 与 \color{#EE82EE}与 与 余 弦 \color{#6495ED}余弦 余弦 距 离 \color{#6495ED}距离 距离 等 \color{#EE82EE}等 等。 值 得 一 提 的 是 \color{#FA8072}值得一提的是 值得一提的是, 在 \color{#4682B4}在 在 20 \color{#000000}20 20 世 纪 \color{#000000}世纪 世纪 80 \color{#000000}80 80、 90 \color{#000000}90 90 年 代 \color{#6495ED}年代 年代, 卷 \color{#000000}卷 卷 积 \color{#D2691E}积 积 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络、 循 环 \color{#D2691E}循环 循环 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 等 \color{#EE82EE}等 等 就 \color{#EE82EE}就 就 已 经 \color{#EE82EE}已经 已经 被 \color{#4682B4}被 被 提 出 \color{#D2691E}提出 提出, 但 \color{#EE82EE}但 但 受 限 \color{#D2691E}受限 受限 于 \color{#4682B4}于 于 计 算 \color{#D2691E}计算 计算 能 力 \color{#6495ED}能力 能力,NLP 的 \color{#EE82EE}的 的 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 方 向 \color{#6495ED}方向 方向 不 \color{#EE82EE}不 不 适 于 \color{#D2691E}适于 适于 部 署 \color{#D2691E}部署 部署 训 练 \color{#D2691E}训练 训练, 多 \color{#32CD32}多 多 停 留 \color{#D2691E}停留 停留 于 \color{#4682B4}于 于 理 论 \color{#6495ED}理论 理论 阶 段 \color{#6495ED}阶段 阶段。
NLP 深 度 \color{#6495ED}深度 深度 时 代 \color{#6495ED}时代 时代
2013 \color{#000000}2013 2013 年 \color{#000000}年 年,word2vec 提 出 \color{#D2691E}提出 提出,NLP 的 \color{#EE82EE}的 的 里 程 碑 式 \color{#EE82EE}里程碑式 里程碑式 技 术 \color{#6495ED}技术 技术。
2013 \color{#000000}2013 2013 年 \color{#000000}年 年,CNNs/RNNs/Recursive
NN, 随 着 \color{#4682B4}随着 随着 算 \color{#D2691E}算 算 力 \color{#6495ED}力 力 的 \color{#EE82EE}的 的 发 展 \color{#D2691E}发展 发展, 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 可 以 \color{#D2691E}可以 可以 越 \color{#EE82EE}越 越 做 \color{#D2691E}做 做 越 深 \color{#6495ED}越深 越深, 之 前 \color{#000000}之前 之前 受 限 \color{#D2691E}受限 受限 的 \color{#EE82EE}的 的 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 不 再 \color{#EE82EE}不再 不再 停 留 \color{#D2691E}停留 停留 在 \color{#4682B4}在 在 理 论 \color{#6495ED}理论 理论 阶 段 \color{#6495ED}阶段 阶段。 在 \color{#4682B4}在 在 图 像 \color{#6495ED}图像 图像 领 域 \color{#6495ED}领域 领域 证 明 \color{#D2691E}证明 证明 过 \color{#EE82EE}过 过 实 力 \color{#6495ED}实力 实力 后 \color{#000000}后 后,Text
CNN 问 世 \color{#D2691E}问世 问世; 同 时 \color{#EE82EE}同时 同时,RNNs 也 \color{#EE82EE}也 也 开 始 \color{#D2691E}开始 开始 崛 起 \color{#D2691E}崛起 崛起。 在 \color{#4682B4}在 在 如 今 \color{#9370DB}如今 如今 的 \color{#EE82EE}的 的NLP 技 术 \color{#6495ED}技术 技术 上 \color{#000000}上 上, 一 般 \color{#32CD32}一般 一般 都 \color{#EE82EE}都 都 能 \color{#D2691E}能 能 看 见 \color{#D2691E}看见 看见CNN/LSTM 的 \color{#EE82EE}的 的 影 子 \color{#6495ED}影子 影子。
本 世 纪 \color{#9370DB}本世纪 本世纪 算 \color{#D2691E}算 算 力 \color{#6495ED}力 力 的 \color{#EE82EE}的 的 提 升 \color{#D2691E}提升 提升, 使 \color{#D2691E}使 使 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 的 \color{#EE82EE}的 的 计 算 \color{#D2691E}计算 计算 不 再 \color{#EE82EE}不再 不再 受 限 \color{#D2691E}受限 受限。 有 \color{#D2691E}有 有 了 \color{#EE82EE}了 了 深 度 \color{#6495ED}深度 深度 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络, 加 上 \color{#D2691E}加上 加上 嵌 入 \color{#D2691E}嵌入 嵌入 技 术 \color{#6495ED}技术 技术, 人 们 \color{#6495ED}人们 人们 发 现 \color{#D2691E}发现 发现 虽 然 \color{#EE82EE}虽然 虽然 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 是 \color{#D2691E}是 是 个 \color{#000000}个 个 黑 盒 子 \color{#6495ED}黑盒子 黑盒子, 但 \color{#EE82EE}但 但 能 \color{#D2691E}能 能 省 去 \color{#D2691E}省去 省去 好 多 \color{#000000}好多 好多 设 计 \color{#D2691E}设计 设计 特 征 \color{#6495ED}特征 特征 的 \color{#EE82EE}的 的 精 力 \color{#6495ED}精力 精力。 至 此 \color{#EE82EE}至此 至此,NLP 深 度 \color{#6495ED}深度 深度 学 习 \color{#D2691E}学习 学习 时 代 \color{#6495ED}时代 时代 开 启 \color{#D2691E}开启 开启。
2014 \color{#000000}2014 2014 年 \color{#000000}年 年,seq2seq 提 出 \color{#D2691E}提出 提出, 在 \color{#4682B4}在 在 机 器 翻 译 \color{#FA8072}机器翻译 机器翻译 领 域 \color{#6495ED}领域 领域, 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 碾 压 \color{#D2691E}碾压 碾压 基 于 \color{#4682B4}基于 基于 统 计 \color{#D2691E}统计 统计 的 \color{#EE82EE}的 的SMT 模 型 \color{#6495ED}模型 模型。
2015 \color{#000000}2015 2015 年 \color{#000000}年 年,attention 提 出 \color{#D2691E}提出 提出, 可 以 \color{#D2691E}可以 可以 说 \color{#D2691E}说 说 是 \color{#D2691E}是 是NLP 另 \color{#2F4F4F}另 另 一 \color{#000000}一 一 里 程 碑 式 \color{#EE82EE}里程碑式 里程碑式 的 \color{#EE82EE}的 的 存 在 \color{#D2691E}存在 存在。 带 \color{#D2691E}带 带attention 的 \color{#EE82EE}的 的seq2seq, 碾 压 \color{#D2691E}碾压 碾压 上 \color{#000000}上 上 一 \color{#000000}一 一 年 \color{#000000}年 年 的 \color{#EE82EE}的 的 原 始 \color{#32CD32}原始 原始seq2seq。 记 得 \color{#D2691E}记得 记得 好 像 \color{#D2691E}好像 好像 17 \color{#000000}17 17 年 \color{#000000}年 年 年 初 \color{#9370DB}年初 年初 看 过 \color{#D2691E}看过 看过 一 \color{#000000}一 一 张 \color{#000000}张 张 图 \color{#6495ED}图 图, 调 侃 \color{#D2691E}调侃 调侃 当 时 \color{#9370DB}当时 当时 学 术 界 \color{#6495ED}学术界 学术界 都 \color{#EE82EE}都 都 是 \color{#D2691E}是 是attention 的 \color{#EE82EE}的 的 现 象 \color{#6495ED}现象 现象, 也 \color{#EE82EE}也 也 证 明 了 \color{#D2691E}证明了 证明了attention 神 \color{#6495ED}神 神 一 般 \color{#32CD32}一般 一般 的 \color{#EE82EE}的 的 效 果 \color{#6495ED}效果 效果。
2017 \color{#000000}2017 2017 年 末 \color{#9370DB}年末 年末,Transformer 提 出 \color{#D2691E}提出 提出。 似 乎 \color{#EE82EE}似乎 似乎 是 \color{#D2691E}是 是 为 了 \color{#4682B4}为了 为了 应 对 \color{#D2691E}应对 应对Facebook 纯 \color{#32CD32}纯 纯 用 \color{#4682B4}用 用 CNN 来 \color{#D2691E}来 来 做 \color{#D2691E}做 做seq2seq 的 \color{#EE82EE}的 的“ 挑 衅 \color{#D2691E}挑衅 挑衅”,google 就 \color{#EE82EE}就 就 纯 \color{#32CD32}纯 纯 用 \color{#4682B4}用 用attention, 并 \color{#EE82EE}并 并 发 表 \color{#D2691E}发表 发表 著 名 \color{#32CD32}著名 著名 的 \color{#EE82EE}的 的《Attention is All You Need》。 初 看 \color{#6495ED}初看 初看 时 \color{#000000}时 时 以 为 \color{#D2691E}以为 以为 其 \color{#2F4F4F}其 其 工 程 \color{#6495ED}工程 工程 意 义 \color{#6495ED}意义 意义 大 于 \color{#D2691E}大于 大于 学 术 \color{#6495ED}学术 学术 意 义 \color{#6495ED}意义 意义, 直 到 \color{#D2691E}直到 直到BERT 的 \color{#EE82EE}的 的 提 出 \color{#D2691E}提出 提出 才 \color{#EE82EE}才 才 知 道 \color{#D2691E}知道 知道 自 己 \color{#2F4F4F}自己 自己 还 是 \color{#EE82EE}还是 还是too young。
2018 \color{#000000}2018 2018 年 末 \color{#9370DB}年末 年末,BERT 提 出 \color{#D2691E}提出 提出, 横 扫 \color{#D2691E}横扫 横扫 11 \color{#000000}11 11 项 \color{#000000}项 项NLP 任 务 \color{#6495ED}任务 任务, 奠 定 \color{#D2691E}奠定 奠定 了 \color{#EE82EE}了 了 预 \color{#EE82EE}预 预 训 练 \color{#D2691E}训练 训练 模 型 \color{#6495ED}模型 模型 方 法 \color{#6495ED}方法 方法 的 \color{#EE82EE}的 的 地 位 \color{#6495ED}地位 地位,NLP 又 \color{#EE82EE}又 又 一 \color{#000000}一 一 里 程 碑 \color{#6495ED}里程碑 里程碑 诞 生 \color{#D2691E}诞生 诞生。 光 \color{#6495ED}光 光 就 \color{#EE82EE}就 就 SQuAD 2.0 \color{#000000}2.0 2.0 上 前 \color{#D2691E}上前 上前 6 名 \color{#000000}名 名 都 \color{#EE82EE}都 都 用 \color{#4682B4}用 用 了 \color{#EE82EE}了 了BERT 技 术 \color{#6495ED}技术 技术 就 \color{#EE82EE}就 就 知 道 \color{#D2691E}知道 知道BERT 的 \color{#EE82EE}的 的 可 怕 \color{#32CD32}可怕 可怕。
深 度 \color{#6495ED}深度 深度 学 习 \color{#D2691E}学习 学习 时 代 \color{#6495ED}时代 时代, 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 能 够 \color{#D2691E}能够 能够 自 动 \color{#EE82EE}自动 自动 从 \color{#4682B4}从 从 数 据 \color{#6495ED}数据 数据 中 \color{#000000}中 中 挖 掘 \color{#D2691E}挖掘 挖掘 特 征 \color{#6495ED}特征 特征, 人 们 \color{#6495ED}人们 人们 从 \color{#4682B4}从 从 复 杂 \color{#32CD32}复杂 复杂 的 \color{#EE82EE}的 的 特 征 \color{#6495ED}特征 特征 中 \color{#000000}中 中 脱 离 \color{#D2691E}脱离 脱离 出 来 \color{#D2691E}出来 出来, 得 以 \color{#D2691E}得以 得以 更 \color{#EE82EE}更 更 专 注 \color{#D2691E}专注 专注 于 \color{#4682B4}于 于 模 型 \color{#6495ED}模型 模型 算 法 \color{#6495ED}算法 算法 本 身 \color{#2F4F4F}本身 本身 的 \color{#EE82EE}的 的 创 新 \color{#D2691E}创新 创新 以 及 \color{#EE82EE}以及 以及 理 论 \color{#6495ED}理论 理论 的 \color{#EE82EE}的 的 突 破 \color{#D2691E}突破 突破。 并 且 \color{#EE82EE}并且 并且 深 度 \color{#6495ED}深度 深度 学 习 \color{#D2691E}学习 学习 从 \color{#4682B4}从 从 一 \color{#000000}一 一 开 始 \color{#D2691E}开始 开始 的 \color{#EE82EE}的 的 机 器 翻 译 \color{#FA8072}机器翻译 机器翻译 领 域 \color{#6495ED}领域 领域 逐 渐 \color{#EE82EE}逐渐 逐渐 扩 散 \color{#D2691E}扩散 扩散 到 \color{#D2691E}到 到NLP 其 他 \color{#2F4F4F}其他 其他 领 域 \color{#6495ED}领域 领域, 传 统 \color{#6495ED}传统 传统 的 \color{#EE82EE}的 的 经 典 \color{#6495ED}经典 经典 算 法 \color{#6495ED}算法 算法 地 位 \color{#6495ED}地位 地位 大 \color{#32CD32}大 大 不 如 \color{#D2691E}不如 不如 前 \color{#000000}前 前。 但 \color{#EE82EE}但 但 神 经 \color{#6495ED}神经 神经 网 络 \color{#6495ED}网络 网络 似 乎 \color{#EE82EE}似乎 似乎 一 直 \color{#EE82EE}一直 一直 是 \color{#D2691E}是 是 个 \color{#000000}个 个 黑 箱 \color{#000000}黑箱 黑箱, 可 \color{#D2691E}可 可 解 释 \color{#D2691E}解释 解释 性 \color{#6495ED}性 性 一 直 \color{#EE82EE}一直 一直 是 \color{#D2691E}是 是 个 \color{#000000}个 个 痛 \color{#32CD32}痛 痛 点 \color{#000000}点 点, 且 \color{#EE82EE}且 且 由 于 \color{#4682B4}由于 由于 其 \color{#2F4F4F}其 其 复 杂 度 \color{#6495ED}复杂度 复杂度 更 高 \color{#EE82EE}更高 更高, 在 \color{#4682B4}在 在 工 业 界 \color{#6495ED}工业界 工业界 经 典 \color{#6495ED}经典 经典 算 法 \color{#6495ED}算法 算法 似 乎 \color{#EE82EE}似乎 似乎 还 是 \color{#EE82EE}还是 还是 占 据 \color{#D2691E}占据 占据 主 流 \color{#6495ED}主流 主流。
基 本 \color{#32CD32}基本 基本 分 类 \color{#D2691E}分类 分类
NLP 里 \color{#000000}里 里 细 分 \color{#D2691E}细分 细分 领 域 \color{#6495ED}领域 领域 和 \color{#EE82EE}和 和 技 术 \color{#6495ED}技术 技术 实 在 \color{#EE82EE}实在 实在 太 多 \color{#32CD32}太多 太多, 根 据 \color{#4682B4}根据 根据NLP 的 \color{#EE82EE}的 的 终 极 \color{#6495ED}终极 终极 目 标 \color{#6495ED}目标 目标, 大 致 \color{#EE82EE}大致 大致 可 以 \color{#D2691E}可以 可以 分 为 \color{#D2691E}分为 分为 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 理 解 \color{#D2691E}理解 理解(NLU) 和 \color{#EE82EE}和 和 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 生 成 \color{#D2691E}生成 生成(NLG) 两 \color{#000000}两 两 种 \color{#000000}种 种。
NLU 侧 重 \color{#D2691E}侧重 侧重 于 \color{#4682B4}于 于 如 何 \color{#2F4F4F}如何 如何 理 解 \color{#D2691E}理解 理解 文 本 \color{#6495ED}文本 文本, 包 括 \color{#D2691E}包括 包括 文 本 \color{#6495ED}文本 文本 分 类 \color{#D2691E}分类 分类、 命 名 \color{#D2691E}命名 命名 实 体 \color{#6495ED}实体 实体 识 别 \color{#D2691E}识别 识别、 指 \color{#D2691E}指 指 代 \color{#000000}代 代 消 \color{#D2691E}消 消 歧 \color{#32CD32}歧 歧、 句 法 \color{#6495ED}句法 句法 分 析 \color{#D2691E}分析 分析、 机 器 \color{#6495ED}机器 机器 阅 读 \color{#D2691E}阅读 阅读 理 解 \color{#D2691E}理解 理解 等 \color{#EE82EE}等 等。
NLG 则 \color{#EE82EE}则 则 侧 重 \color{#D2691E}侧重 侧重 于 \color{#4682B4}于 于 理 解 \color{#D2691E}理解 理解 文 本 \color{#6495ED}文本 文本 后 \color{#000000}后 后 如 何 \color{#2F4F4F}如何 如何 生 成 \color{#D2691E}生成 生成 自 然 \color{#6495ED}自然 自然 文 本 \color{#6495ED}文本 文本, 包 括 \color{#D2691E}包括 包括 自 动 \color{#EE82EE}自动 自动 摘 要 \color{#6495ED}摘要 摘要、 机 器 翻 译 \color{#FA8072}机器翻译 机器翻译、 问 答 \color{#D2691E}问答 问答 系 统 \color{#6495ED}系统 系统、 对 话 \color{#D2691E}对话 对话 机 器 人 \color{#6495ED}机器人 机器人 等 \color{#EE82EE}等 等。 两 者 \color{#2F4F4F}两者 两者 间 \color{#000000}间 间 不 \color{#EE82EE}不 不 存 在 \color{#D2691E}存在 存在 有 \color{#D2691E}有 有 明 显 \color{#32CD32}明显 明显 的 \color{#EE82EE}的 的 界 限 \color{#6495ED}界限 界限, 如 \color{#D2691E}如 如 机 器 \color{#6495ED}机器 机器 阅 读 \color{#D2691E}阅读 阅读 理 解 \color{#D2691E}理解 理解 实 际 \color{#6495ED}实际 实际 属 于 \color{#D2691E}属于 属于 问 答 \color{#D2691E}问答 问答 系 统 \color{#6495ED}系统 系统 的 \color{#EE82EE}的 的 一 个 \color{#000000}一个 一个 子 \color{#6495ED}子 子 领 域 \color{#6495ED}领域 领域。
大 致 \color{#EE82EE}大致 大致 来 说 \color{#EE82EE}来说 来说,NLP 可 以 \color{#D2691E}可以 可以 分 为 \color{#D2691E}分为 分为 以 下 \color{#000000}以下 以下 几 \color{#EE82EE}几 几 个 \color{#000000}个 个 领 域 \color{#6495ED}领域 领域:
文 本 \color{#6495ED}文本 文本 检 索 \color{#D2691E}检索 检索
多 \color{#32CD32}多 多 用 于 \color{#D2691E}用于 用于 大 规 模 \color{#EE82EE}大规模 大规模 数 据 \color{#6495ED}数据 数据 的 \color{#EE82EE}的 的 检 索 \color{#D2691E}检索 检索, 典 型 \color{#6495ED}典型 典型 的 \color{#EE82EE}的 的 应 用 \color{#D2691E}应用 应用 有 \color{#D2691E}有 有 搜 索 引 擎 \color{#6495ED}搜索引擎 搜索引擎。
机 器 翻 译 \color{#FA8072}机器翻译 机器翻译
跨 \color{#D2691E}跨 跨 语 种 \color{#6495ED}语种 语种 翻 译 \color{#D2691E}翻译 翻译, 该 \color{#2F4F4F}该 该 领 域 \color{#6495ED}领域 领域 目 前 \color{#9370DB}目前 目前 已 \color{#EE82EE}已 已 较 为 \color{#EE82EE}较为 较为 成 熟 \color{#32CD32}成熟 成熟。 目 前 \color{#9370DB}目前 目前 谷 歌 \color{#4169E1}谷歌 谷歌 翻 译 \color{#D2691E}翻译 翻译 已 \color{#EE82EE}已 已 用 \color{#4682B4}用 用 上 机 \color{#D2691E}上机 上机 翻 \color{#D2691E}翻 翻 技 术 \color{#6495ED}技术 技术。
文 本 \color{#6495ED}文本 文本 分 类 \color{#D2691E}分类 分类/ 情 感 \color{#6495ED}情感 情感 分 析 \color{#D2691E}分析 分析
本 质 \color{#6495ED}本质 本质 上 \color{#000000}上 上 就 是 \color{#D2691E}就是 就是 个 \color{#000000}个 个 分 类 \color{#D2691E}分类 分类 问 题 \color{#6495ED}问题 问题。 目 前 \color{#9370DB}目前 目前 也 \color{#EE82EE}也 也 较 为 \color{#EE82EE}较为 较为 成 熟 \color{#32CD32}成熟 成熟, 难 点 \color{#6495ED}难点 难点 在 于 \color{#D2691E}在于 在于 多 \color{#32CD32}多 多 标 签 \color{#6495ED}标签 标签 分 类 \color{#D2691E}分类 分类( 即 \color{#D2691E}即 即 一 个 \color{#000000}一个 一个 文 本 \color{#6495ED}文本 文本 对 应 \color{#D2691E}对应 对应 多 \color{#32CD32}多 多 个 \color{#000000}个 个 标 签 \color{#6495ED}标签 标签, 把 \color{#4682B4}把 把 这 些 \color{#2F4F4F}这些 这些 标 签 \color{#6495ED}标签 标签 全 部 \color{#000000}全部 全部 找 到 \color{#D2691E}找到 找到) 以 及 \color{#EE82EE}以及 以及 细 粒 \color{#6495ED}细粒 细粒 度 \color{#000000}度 度 分 类 \color{#D2691E}分类 分类( 二 \color{#000000}二 二 极 \color{#EE82EE}极 极 情 感 \color{#6495ED}情感 情感 分 类 \color{#D2691E}分类 分类 精 度 \color{#6495ED}精度 精度 很 高 \color{#EE82EE}很高 很高, 即 \color{#D2691E}即 即 好 \color{#32CD32}好 好 中 \color{#000000}中 中 差 \color{#32CD32}差 差 三 类 \color{#EE82EE}三类 三类, 而 \color{#EE82EE}而 而 五 \color{#000000}五 五 级 \color{#000000}级 级 情 感 \color{#6495ED}情感 情感 分 类 \color{#D2691E}分类 分类 精 度 \color{#6495ED}精度 精度 仍 然 \color{#EE82EE}仍然 仍然 较 低 \color{#EE82EE}较低 较低, 即 \color{#D2691E}即 即 好 \color{#32CD32}好 好、 较 好 \color{#EE82EE}较好 较好、 中 \color{#000000}中 中、 较 差 \color{#EE82EE}较差 较差、 差 \color{#32CD32}差 差)
信 息 \color{#6495ED}信息 信息 抽 取 \color{#D2691E}抽取 抽取
从 \color{#4682B4}从 从 不 规 则 \color{#32CD32}不规则 不规则 文 本 \color{#6495ED}文本 文本 中 \color{#000000}中 中 抽 取 \color{#D2691E}抽取 抽取 想 \color{#D2691E}想 想 要 \color{#D2691E}要 要 的 \color{#EE82EE}的 的 信 息 \color{#6495ED}信息 信息, 包 括 \color{#D2691E}包括 包括 命 名 \color{#D2691E}命名 命名 实 体 \color{#6495ED}实体 实体 识 别 \color{#D2691E}识别 识别、 关 系 \color{#6495ED}关系 关系 抽 取 \color{#D2691E}抽取 抽取、 事 件 \color{#6495ED}事件 事件 抽 取 \color{#D2691E}抽取 抽取 等 \color{#EE82EE}等 等。 应 用 \color{#D2691E}应用 应用 极 广 \color{#6495ED}极广 极广。
序 列 \color{#6495ED}序列 序列 标 注 \color{#D2691E}标注 标注
给 \color{#4682B4}给 给 文 本 \color{#6495ED}文本 文本 中 的 \color{#D2691E}中的 中的 每 \color{#2F4F4F}每 每 一 个 \color{#000000}一个 一个 字 \color{#6495ED}字 字/ 词 \color{#6495ED}词 词 打 \color{#D2691E}打 打 上 \color{#000000}上 上 相 应 \color{#D2691E}相应 相应 的 \color{#EE82EE}的 的 标 签 \color{#6495ED}标签 标签。 是 \color{#D2691E}是 是 大 多 数 \color{#000000}大多数 大多数NLP 底 层 \color{#6495ED}底层 底层 技 术 \color{#6495ED}技术 技术 的 \color{#EE82EE}的 的 核 心 \color{#6495ED}核心 核心, 如 \color{#D2691E}如 如 分 词 \color{#6495ED}分词 分词、 词 性 \color{#6495ED}词性 词性 标 注 \color{#D2691E}标注 标注、 关 键 词 \color{#6495ED}关键词 关键词 抽 取 \color{#D2691E}抽取 抽取、 命 名 \color{#D2691E}命名 命名 实 体 \color{#6495ED}实体 实体 识 别 \color{#D2691E}识别 识别、 语 义 \color{#6495ED}语义 语义 角 色 \color{#6495ED}角色 角色 标 注 \color{#D2691E}标注 标注 等 等 \color{#EE82EE}等等 等等。 曾 \color{#EE82EE}曾 曾 是 \color{#D2691E}是 是HMM、CRF 的 \color{#EE82EE}的 的 天 下 \color{#6495ED}天下 天下, 近 年 来 \color{#EE82EE}近年来 近年来 逐 步 \color{#EE82EE}逐步 逐步 稳 定 \color{#32CD32}稳定 稳定 为 \color{#4682B4}为 为BiLSTM-CRF 体 系 \color{#6495ED}体系 体系。
文 本 \color{#6495ED}文本 文本 摘 要 \color{#6495ED}摘要 摘要
从 \color{#4682B4}从 从 给 \color{#4682B4}给 给 定 \color{#D2691E}定 定 的 \color{#EE82EE}的 的 文 本 \color{#6495ED}文本 文本 中 \color{#000000}中 中, 聚 焦 \color{#D2691E}聚焦 聚焦 到 \color{#D2691E}到 到 最 \color{#EE82EE}最 最 核 心 \color{#6495ED}核心 核心 的 \color{#EE82EE}的 的 部 分 \color{#6495ED}部分 部分, 自 动 \color{#EE82EE}自动 自动 生 成 \color{#D2691E}生成 生成 摘 要 \color{#6495ED}摘要 摘要。
问 答 \color{#D2691E}问答 问答 系 统 \color{#6495ED}系统 系统
接 受 \color{#D2691E}接受 接受 用 户 \color{#6495ED}用户 用户 以 \color{#4682B4}以 以 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 表 达 \color{#D2691E}表达 表达 的 \color{#EE82EE}的 的 问 题 \color{#6495ED}问题 问题, 并 \color{#EE82EE}并 并 返 回 \color{#D2691E}返回 返回 以 \color{#4682B4}以 以 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 表 达 \color{#D2691E}表达 表达 的 \color{#EE82EE}的 的 回 答 \color{#D2691E}回答 回答。 常 见 \color{#32CD32}常见 常见 形 式 \color{#6495ED}形式 形式 为 \color{#4682B4}为 为 检 索 \color{#D2691E}检索 检索 式 \color{#ADFF2F}式 式、 抽 取 \color{#D2691E}抽取 抽取 式 \color{#ADFF2F}式 式 和 \color{#EE82EE}和 和 生 成 \color{#D2691E}生成 生成 式 \color{#ADFF2F}式 式 三 \color{#000000}三 三 种 \color{#000000}种 种。 近 年 来 \color{#EE82EE}近年来 近年来 交 互 式 \color{#EE82EE}交互式 交互式 也 \color{#EE82EE}也 也 逐 渐 \color{#EE82EE}逐渐 逐渐 受 到 \color{#D2691E}受到 受到 关 注 \color{#D2691E}关注 关注。 典 型 \color{#6495ED}典型 典型 应 用 \color{#D2691E}应用 应用 有 \color{#D2691E}有 有 智 能 \color{#6495ED}智能 智能 客 服 \color{#6495ED}客服 客服
对 话 \color{#D2691E}对话 对话 系 统 \color{#6495ED}系统 系统
与 \color{#EE82EE}与 与 问 答 \color{#D2691E}问答 问答 系 统 \color{#6495ED}系统 系统 有 \color{#D2691E}有 有 许 多 \color{#000000}许多 许多 相 通 \color{#D2691E}相通 相通 之 \color{#EE82EE}之 之 处 \color{#6495ED}处 处, 区 别 \color{#6495ED}区别 区别 在 于 \color{#D2691E}在于 在于 问 答 \color{#D2691E}问答 问答 系 统 \color{#6495ED}系统 系统 旨 在 \color{#D2691E}旨在 旨在 直 接 \color{#32CD32}直接 直接 给 \color{#4682B4}给 给 出 \color{#D2691E}出 出 精 准 \color{#6495ED}精准 精准 回 答 \color{#D2691E}回答 回答, 回 答 \color{#D2691E}回答 回答 是 否 \color{#D2691E}是否 是否 口 语 \color{#6495ED}口语 口语 化 \color{#D2691E}化 化 不 \color{#EE82EE}不 不 在 \color{#4682B4}在 在 主 要 \color{#EE82EE}主要 主要 考 虑 \color{#D2691E}考虑 考虑 范 围 内 \color{#6495ED}范围内 范围内; 而 \color{#EE82EE}而 而 对 话 \color{#D2691E}对话 对话 系 统 \color{#6495ED}系统 系统 旨 在 \color{#D2691E}旨在 旨在 以 \color{#4682B4}以 以 口 语 \color{#6495ED}口语 口语 化 \color{#D2691E}化 化 的 \color{#EE82EE}的 的 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 对 话 \color{#D2691E}对话 对话 的 \color{#EE82EE}的 的 方 式 \color{#6495ED}方式 方式 解 决 \color{#D2691E}解决 解决 用 户 \color{#6495ED}用户 用户 问 题 \color{#6495ED}问题 问题。 对 话 \color{#D2691E}对话 对话 系 统 \color{#6495ED}系统 系统 目 前 \color{#9370DB}目前 目前 分 \color{#000000}分 分 闲 聊 \color{#D2691E}闲聊 闲聊 式 \color{#ADFF2F}式 式 和 \color{#EE82EE}和 和 任 务 \color{#6495ED}任务 任务 导 向 \color{#6495ED}导向 导向 型 \color{#ADFF2F}型 型。 前 者 \color{#2F4F4F}前者 前者 主 要 \color{#EE82EE}主要 主要 应 用 \color{#D2691E}应用 应用 有 \color{#D2691E}有 有siri、 小 冰 \color{#4B0082}小冰 小冰 等 \color{#EE82EE}等 等; 后 者 \color{#2F4F4F}后者 后者 主 要 \color{#EE82EE}主要 主要 应 用 \color{#D2691E}应用 应用 有 \color{#D2691E}有 有 车 载 \color{#EE82EE}车载 车载 聊 天 \color{#D2691E}聊天 聊天 机 器 人 \color{#6495ED}机器人 机器人。( 对 话 \color{#D2691E}对话 对话 系 统 \color{#6495ED}系统 系统 和 \color{#EE82EE}和 和 问 答 \color{#D2691E}问答 问答 系 统 \color{#6495ED}系统 系统 应 该 \color{#D2691E}应该 应该 是 \color{#D2691E}是 是 最 \color{#EE82EE}最 最 接 近 \color{#D2691E}接近 接近NLP 终 极 \color{#6495ED}终极 终极 目 标 \color{#6495ED}目标 目标 的 \color{#EE82EE}的 的 领 域 \color{#6495ED}领域 领域)
知 识 \color{#6495ED}知识 知识 图 谱 \color{#6495ED}图谱 图谱
从 \color{#4682B4}从 从 规 则 \color{#6495ED}规则 规则 或 \color{#EE82EE}或 或 不 规 则 \color{#32CD32}不规则 不规则 的 \color{#EE82EE}的 的 文 本 \color{#6495ED}文本 文本 中 \color{#000000}中 中 提 取 \color{#D2691E}提取 提取 结 构 \color{#6495ED}结构 结构 化 \color{#D2691E}化 化 的 \color{#EE82EE}的 的 信 息 \color{#6495ED}信息 信息, 并 \color{#EE82EE}并 并 以 \color{#4682B4}以 以 可 视 化 \color{#000000}可视化 可视化 的 \color{#EE82EE}的 的 形 式 \color{#6495ED}形式 形式 将 \color{#EE82EE}将 将 实 体 \color{#6495ED}实体 实体 间 \color{#000000}间 间 以 \color{#4682B4}以 以 何 种 \color{#2F4F4F}何种 何种 方 式 \color{#6495ED}方式 方式 联 系 \color{#D2691E}联系 联系 表 现 \color{#D2691E}表现 表现 出 来 \color{#D2691E}出来 出来。 图 谱 \color{#6495ED}图谱 图谱 本 身 \color{#2F4F4F}本身 本身 不 \color{#EE82EE}不 不 具 有 \color{#D2691E}具有 具有 应 用 \color{#D2691E}应用 应用 意 义 \color{#6495ED}意义 意义, 建 立 \color{#D2691E}建立 建立 在 \color{#4682B4}在 在 图 谱 \color{#6495ED}图谱 图谱 基 础 上 \color{#6495ED}基础上 基础上 的 \color{#EE82EE}的 的 知 识 \color{#6495ED}知识 知识 检 索 \color{#D2691E}检索 检索、 知 识 \color{#6495ED}知识 知识 推 理 \color{#D2691E}推理 推理、 知 识 \color{#6495ED}知识 知识 发 现 \color{#D2691E}发现 发现 才 \color{#EE82EE}才 才 是 \color{#D2691E}是 是 知 识 \color{#6495ED}知识 知识 图 谱 \color{#6495ED}图谱 图谱 的 \color{#EE82EE}的 的 研 究 \color{#D2691E}研究 研究 方 向 \color{#6495ED}方向 方向。
文 本 \color{#6495ED}文本 文本 聚 \color{#D2691E}聚 聚 类 \color{#000000}类 类
一 个 \color{#000000}一个 一个 古 老 \color{#32CD32}古老 古老 的 \color{#EE82EE}的 的 领 域 \color{#6495ED}领域 领域, 但 \color{#EE82EE}但 但 现 在 \color{#9370DB}现在 现在 仍 \color{#EE82EE}仍 仍 未 \color{#EE82EE}未 未 研 究 \color{#D2691E}研究 研究 透 彻 \color{#32CD32}透彻 透彻。 从 \color{#4682B4}从 从 大 规 模 \color{#EE82EE}大规模 大规模 文 本 \color{#6495ED}文本 文本 数 据 \color{#6495ED}数据 数据 中 \color{#000000}中 中 自 动 \color{#EE82EE}自动 自动 发 现 \color{#D2691E}发现 发现 规 律 \color{#6495ED}规律 规律。 核 心 \color{#6495ED}核心 核心 在 于 \color{#D2691E}在于 在于 如 何 \color{#2F4F4F}如何 如何 表 示 \color{#D2691E}表示 表示 文 本 \color{#6495ED}文本 文本 以 及 \color{#EE82EE}以及 以及 如 何 \color{#2F4F4F}如何 如何 度 量 \color{#D2691E}度量 度量 文 本 \color{#6495ED}文本 文本 之 间 \color{#000000}之间 之间 的 \color{#EE82EE}的 的 距 离 \color{#6495ED}距离 距离。
基 本 \color{#32CD32}基本 基本 技 术 \color{#6495ED}技术 技术
分 词 \color{#6495ED}分词 分词: 基 本 \color{#32CD32}基本 基本 算 是 \color{#D2691E}算是 算是 所 有 \color{#EE82EE}所有 所有NLP 任 务 \color{#6495ED}任务 任务 中 \color{#000000}中 中 最 底 层 \color{#6495ED}最底层 最底层 的 \color{#EE82EE}的 的 技 术 \color{#6495ED}技术 技术。 不 论 \color{#EE82EE}不论 不论 解 决 \color{#D2691E}解决 解决 什 么 \color{#2F4F4F}什么 什么 问 题 \color{#6495ED}问题 问题, 分 词 \color{#6495ED}分词 分词 永 远 \color{#EE82EE}永远 永远 是 \color{#D2691E}是 是 第 一 \color{#000000}第一 第一 步 \color{#000000}步 步。
词 性 \color{#6495ED}词性 词性 标 注 \color{#D2691E}标注 标注: 判 断 \color{#D2691E}判断 判断 文 本 \color{#6495ED}文本 文本 中 的 \color{#D2691E}中的 中的 词 \color{#6495ED}词 词 的 \color{#EE82EE}的 的 词 性 \color{#6495ED}词性 词性( 名 词 \color{#6495ED}名词 名词、 动 词 \color{#6495ED}动词 动词、 形 容 词 \color{#6495ED}形容词 形容词 等 等 \color{#EE82EE}等等 等等), 一 般 \color{#32CD32}一般 一般 作 为 \color{#4682B4}作为 作为 额 外 \color{#EE82EE}额外 额外 特 征 \color{#6495ED}特征 特征 使 用 \color{#D2691E}使用 使用。
句 法 \color{#6495ED}句法 句法 分 析 \color{#D2691E}分析 分析: 分 为 \color{#D2691E}分为 分为 句 法 \color{#6495ED}句法 句法 结 构 \color{#6495ED}结构 结构 分 析 \color{#D2691E}分析 分析 和 \color{#EE82EE}和 和 依 存 \color{#D2691E}依存 依存 句 法 \color{#6495ED}句法 句法 分 析 \color{#D2691E}分析 分析 两 \color{#000000}两 两 种 \color{#000000}种 种。
词 干 \color{#6495ED}词干 词干 提 取 \color{#D2691E}提取 提取: 从 \color{#4682B4}从 从 单 词 \color{#6495ED}单词 单词 各 种 \color{#2F4F4F}各种 各种 前 缀 \color{#6495ED}前缀 前缀 后 缀 \color{#6495ED}后缀 后缀 变 化 \color{#D2691E}变化 变化、 时 态 \color{#6495ED}时态 时态 变 化 \color{#D2691E}变化 变化 等 \color{#EE82EE}等 等 变 化 \color{#D2691E}变化 变化 中 \color{#000000}中 中 还 原 \color{#D2691E}还原 还原 词 干 \color{#6495ED}词干 词干, 常 见 于 \color{#D2691E}常见于 常见于 英 文 \color{#6495ED}英文 英文 文 本 \color{#6495ED}文本 文本 处 理 \color{#D2691E}处理 处理。
命 名 \color{#D2691E}命名 命名 实 体 \color{#6495ED}实体 实体 识 别 \color{#D2691E}识别 识别: 识 别 \color{#D2691E}识别 识别 并 \color{#EE82EE}并 并 抽 取 \color{#D2691E}抽取 抽取 文 本 \color{#6495ED}文本 文本 中 的 \color{#D2691E}中的 中的 实 体 \color{#6495ED}实体 实体, 一 般 \color{#32CD32}一般 一般 采 用 \color{#D2691E}采用 采用BIO 形 式 \color{#6495ED}形式 形式。
指 \color{#D2691E}指 指 代 \color{#000000}代 代 消 \color{#D2691E}消 消 歧 \color{#32CD32}歧 歧: 文 本 \color{#6495ED}文本 文本 中 的 \color{#D2691E}中的 中的 代 词 \color{#6495ED}代词 代词, 如 \color{#D2691E}如 如“ 他 \color{#2F4F4F}他 他”“ 这 个 \color{#2F4F4F}这个 这个” 等 \color{#EE82EE}等 等, 还 原 \color{#D2691E}还原 还原 成 \color{#D2691E}成 成 其 \color{#2F4F4F}其 其 所 \color{#EE82EE}所 所 指 \color{#D2691E}指 指 实 体 \color{#6495ED}实体 实体。
关 键 词 \color{#6495ED}关键词 关键词 抽 取 \color{#D2691E}抽取 抽取: 提 取 \color{#D2691E}提取 提取 文 本 \color{#6495ED}文本 文本 中 的 \color{#D2691E}中的 中的 关 键 词 \color{#6495ED}关键词 关键词, 用 以 \color{#EE82EE}用以 用以 表 征 \color{#6495ED}表征 表征 文 本 \color{#6495ED}文本 文本 或 \color{#EE82EE}或 或 下 游 \color{#000000}下游 下游 应 用 \color{#D2691E}应用 应用。
词 \color{#6495ED}词 词 向 量 \color{#6495ED}向量 向量 与 \color{#EE82EE}与 与 词 \color{#6495ED}词 词 嵌 入 \color{#D2691E}嵌入 嵌入: 把 \color{#4682B4}把 把 单 词 \color{#6495ED}单词 单词 映 射 \color{#D2691E}映射 映射 到 \color{#D2691E}到 到 低 \color{#32CD32}低 低 维 \color{#EE82EE}维 维 空 间 \color{#6495ED}空间 空间 中 \color{#000000}中 中, 并 \color{#EE82EE}并 并 保 持 \color{#D2691E}保持 保持 单 词 \color{#6495ED}单词 单词 间 \color{#000000}间 间 相 互 \color{#EE82EE}相互 相互 关 系 \color{#6495ED}关系 关系 不 变 \color{#6495ED}不变 不变。 是 \color{#D2691E}是 是NLP 深 度 \color{#6495ED}深度 深度 学 习 \color{#D2691E}学习 学习 技 术 \color{#6495ED}技术 技术 的 \color{#EE82EE}的 的 基 础 \color{#6495ED}基础 基础。
文 本 \color{#6495ED}文本 文本 生 成 \color{#D2691E}生成 生成: 给 定 \color{#D2691E}给定 给定 特 定 \color{#EE82EE}特定 特定 的 \color{#EE82EE}的 的 文 本 \color{#6495ED}文本 文本 输 入 \color{#D2691E}输入 输入, 生 成 \color{#D2691E}生成 生成 所 \color{#EE82EE}所 所 需 要 \color{#D2691E}需要 需要 的 \color{#EE82EE}的 的 文 本 \color{#6495ED}文本 文本, 主 要 \color{#EE82EE}主要 主要 应 用 于 \color{#D2691E}应用于 应用于 文 本 \color{#6495ED}文本 文本 摘 要 \color{#6495ED}摘要 摘要、 对 话 \color{#D2691E}对话 对话 系 统 \color{#6495ED}系统 系统、 机 器 翻 译 \color{#FA8072}机器翻译 机器翻译、 问 答 \color{#D2691E}问答 问答 系 统 \color{#6495ED}系统 系统 等 \color{#EE82EE}等 等 领 域 \color{#6495ED}领域 领域。
常 用 \color{#32CD32}常用 常用 算 法 \color{#6495ED}算法 算法
tfidf、BM 25 \color{#000000}25 25、TextRank、HMM、CRF、LSI、 主 题 \color{#6495ED}主题 主题 模 型 \color{#6495ED}模型 模型、word2vec、GloVe、LSTM/GRU、CNN、seq2seq、Attention……
终 极 \color{#6495ED}终极 终极 目 标 \color{#6495ED}目标 目标
从 \color{#4682B4}从 从 计 算 机 \color{#6495ED}计算机 计算机 诞 生 \color{#D2691E}诞生 诞生,NLP 这 个 \color{#2F4F4F}这个 这个 概 念 \color{#6495ED}概念 概念 被 \color{#4682B4}被 被 提 出 \color{#D2691E}提出 提出 伊 始 \color{#D2691E}伊始 伊始, 人 们 \color{#6495ED}人们 人们 便 \color{#EE82EE}便 便 希 望 \color{#D2691E}希望 希望 计 算 机 \color{#6495ED}计算机 计算机 能 够 \color{#D2691E}能够 能够 理 解 \color{#D2691E}理解 理解 人 类 \color{#6495ED}人类 人类 的 \color{#EE82EE}的 的 语 言 \color{#6495ED}语言 语言, 于 是 便 \color{#4B0082}于是便 于是便 有 \color{#D2691E}有 有 了 \color{#EE82EE}了 了 图 灵 \color{#000000}图灵 图灵 测 试 \color{#D2691E}测试 测试。
尽 管 \color{#EE82EE}尽管 尽管google I/O 大 会 \color{#6495ED}大会 大会 上 \color{#000000}上 上 的 \color{#EE82EE}的 的Google
Assistant 宣 称 \color{#D2691E}宣称 宣称 已 经 \color{#EE82EE}已经 已经 通 过 \color{#4682B4}通过 通过 了 \color{#EE82EE}了 了 图 灵 \color{#000000}图灵 图灵 测 试 \color{#D2691E}测试 测试, 但 \color{#EE82EE}但 但 离 \color{#D2691E}离 离 真 正 \color{#EE82EE}真正 真正 理 解 \color{#D2691E}理解 理解 人 类 \color{#6495ED}人类 人类 语 言 \color{#6495ED}语言 语言 仍 \color{#EE82EE}仍 仍 有 \color{#D2691E}有 有 很 长 \color{#EE82EE}很长 很长 的 \color{#EE82EE}的 的 距 离 \color{#6495ED}距离 距离, 让 \color{#D2691E}让 让 计 算 机 \color{#6495ED}计算机 计算机 能 够 \color{#D2691E}能够 能够 确 切 \color{#32CD32}确切 确切 理 解 \color{#D2691E}理解 理解 人 类 \color{#6495ED}人类 人类 的 \color{#EE82EE}的 的 语 言 \color{#6495ED}语言 语言, 并 \color{#EE82EE}并 并 自 然 地 \color{#6495ED}自然地 自然地 与 \color{#EE82EE}与 与 人 \color{#6495ED}人 人 进 行 \color{#D2691E}进行 进行 交 互 \color{#EE82EE}交互 交互 是 \color{#D2691E}是 是NLP 的 \color{#EE82EE}的 的 最 终 \color{#EE82EE}最终 最终 目 标 \color{#6495ED}目标 目标, 也 \color{#EE82EE}也 也 是 \color{#D2691E}是 是 大 多 数 \color{#000000}大多数 大多数NLPer 的 \color{#EE82EE}的 的 最 高 \color{#32CD32}最高 最高 信 仰 \color{#D2691E}信仰 信仰。 为 此 \color{#EE82EE}为此 为此 各 路 \color{#2F4F4F}各路 各路 大 佬 \color{#6495ED}大佬 大佬 挥 舞 \color{#D2691E}挥舞 挥舞 手 中 \color{#2F4F4F}手中 手中 的 \color{#EE82EE}的 的 代 码 \color{#6495ED}代码 代码 不 断 \color{#EE82EE}不断 不断 挖 坑 \color{#D2691E}挖坑 挖坑 填 坑 \color{#6495ED}填坑 填坑, 攻 克 \color{#D2691E}攻克 攻克 一 个 \color{#000000}一个 一个 又 \color{#EE82EE}又 又 一 个 \color{#000000}一个 一个 难 题 \color{#6495ED}难题 难题, 推 动 \color{#D2691E}推动 推动NLP 一 直 \color{#EE82EE}一直 一直 往 \color{#4682B4}往 往 前 \color{#000000}前 前 发 展 \color{#D2691E}发展 发展。
研 究 \color{#D2691E}研究 研究 难 点 \color{#6495ED}难点 难点
仍 \color{#EE82EE}仍 仍 有 \color{#D2691E}有 有 很 多 \color{#000000}很多 很多 制 约 \color{#D2691E}制约 制约NLP 发 展 \color{#D2691E}发展 发展 的 \color{#EE82EE}的 的 因 素 \color{#6495ED}因素 因素, 这 些 \color{#2F4F4F}这些 这些 因 素 \color{#6495ED}因素 因素 构 成 \color{#D2691E}构成 构成 了 \color{#EE82EE}了 了NLP 的 \color{#EE82EE}的 的 难 点 \color{#6495ED}难点 难点。 而 且 \color{#EE82EE}而且 而且 要 命 \color{#D2691E}要命 要命 的 \color{#EE82EE}的 的 是 \color{#D2691E}是 是, 大 多 数 \color{#000000}大多数 大多数 是 \color{#D2691E}是 是 基 础 \color{#6495ED}基础 基础 技 术 \color{#6495ED}技术 技术 的 \color{#EE82EE}的 的 难 点 \color{#6495ED}难点 难点。
中 文 \color{#6495ED}中文 中文 分 词 \color{#6495ED}分词 分词, 这 \color{#2F4F4F}这 这 条 \color{#000000}条 条 是 \color{#D2691E}是 是 专 门 \color{#EE82EE}专门 专门 针 对 \color{#4682B4}针对 针对 中 文 \color{#6495ED}中文 中文 说 \color{#D2691E}说 说 的 \color{#EE82EE}的 的。 众 所 周 知 \color{#D2691E}众所周知 众所周知 汉 语 \color{#000000}汉语 汉语 博 大 精 深 \color{#D2691E}博大精深 博大精深, 老 外 \color{#6495ED}老外 老外 学 汉 语 \color{#6495ED}学汉语 学汉语 尚 且 \color{#EE82EE}尚且 尚且 虐 心 \color{#6495ED}虐心 虐心, 更 \color{#EE82EE}更 更 别 提 \color{#D2691E}别提 别提 计 算 机 \color{#6495ED}计算机 计算机 了 \color{#EE82EE}了 了。 同 \color{#4682B4}同 同 一 个 \color{#000000}一个 一个 任 务 \color{#6495ED}任务 任务, 同 \color{#4682B4}同 同 一 个 \color{#000000}一个 一个 模 型 \color{#6495ED}模型 模型 在 \color{#4682B4}在 在 英 文 \color{#6495ED}英文 英文 语 料 \color{#6495ED}语料 语料 的 \color{#EE82EE}的 的 表 现 \color{#D2691E}表现 表现 上 \color{#000000}上 上 一 般 \color{#32CD32}一般 一般 要 \color{#D2691E}要 要 比 \color{#4682B4}比 比 中 文 \color{#6495ED}中文 中文 语 料 \color{#6495ED}语料 语料 好 \color{#32CD32}好 好。 无 论 是 \color{#EE82EE}无论是 无论是 基 于 \color{#4682B4}基于 基于 统 计 \color{#D2691E}统计 统计 的 \color{#EE82EE}的 的 还 是 \color{#EE82EE}还是 还是 基 于 \color{#4682B4}基于 基于 深 度 \color{#6495ED}深度 深度 学 习 \color{#D2691E}学习 学习 的 \color{#EE82EE}的 的NLP 方 法 \color{#6495ED}方法 方法, 分 词 \color{#6495ED}分词 分词 都 \color{#EE82EE}都 都 是 \color{#D2691E}是 是 第 一 \color{#000000}第一 第一 步 \color{#000000}步 步。 分 词 \color{#6495ED}分词 分词 表 现 \color{#D2691E}表现 表现 不 好 \color{#32CD32}不好 不好 的 话 \color{#EE82EE}的话 的话, 后 面 \color{#000000}后面 后面 的 \color{#EE82EE}的 的 模 型 \color{#6495ED}模型 模型 最 多 \color{#32CD32}最多 最多 也 \color{#EE82EE}也 也 只 能 \color{#D2691E}只能 只能 尽 力 \color{#EE82EE}尽力 尽力 纠 偏 \color{#D2691E}纠偏 纠偏
词 义 \color{#6495ED}词义 词义 消 \color{#D2691E}消 消 歧 \color{#32CD32}歧 歧: 很 多 \color{#000000}很多 很多 单 词 \color{#6495ED}单词 单词 不 \color{#EE82EE}不 不 只 有 \color{#EE82EE}只有 只有 一 个 \color{#000000}一个 一个 意 思 \color{#6495ED}意思 意思, 但 \color{#EE82EE}但 但 这 个 \color{#2F4F4F}这个 这个 在 \color{#4682B4}在 在 今 年 \color{#9370DB}今年 今年BERT 推 出 \color{#D2691E}推出 推出 后 \color{#000000}后 后 应 该 \color{#D2691E}应该 应该 不 成 \color{#D2691E}不成 不成 问 题 \color{#6495ED}问题 问题, 可 以 \color{#D2691E}可以 可以 通 过 \color{#4682B4}通过 通过 上 下 文 \color{#6495ED}上下文 上下文 学 \color{#D2691E}学 学 到 \color{#D2691E}到 到 不 同 \color{#32CD32}不同 不同 的 \color{#EE82EE}的 的 意 思 \color{#6495ED}意思 意思。 另 \color{#2F4F4F}另 另 一 个 \color{#000000}一个 一个 较 难 \color{#6495ED}较难 较难 的 \color{#EE82EE}的 的 是 \color{#D2691E}是 是 指 \color{#D2691E}指 指 代 \color{#000000}代 代 消 \color{#D2691E}消 消 歧 \color{#32CD32}歧 歧, 即 \color{#D2691E}即 即 句 子 \color{#6495ED}句子 句子 中 的 \color{#D2691E}中的 中的 指 \color{#D2691E}指 指 代 词 \color{#6495ED}代词 代词 还 原 \color{#D2691E}还原 还原, 如 \color{#D2691E}如 如“ 小 明 \color{#6495ED}小明 小明 受 到 \color{#D2691E}受到 受到 了 \color{#EE82EE}了 了 老 师 \color{#4B0082}老师 老师 的 \color{#EE82EE}的 的 表 扬 \color{#D2691E}表扬 表扬, 他 \color{#2F4F4F}他 他 很 \color{#EE82EE}很 很 高 兴 \color{#32CD32}高兴 高兴”, 这 个 \color{#2F4F4F}这个 这个“ 他 \color{#2F4F4F}他 他” 是 \color{#D2691E}是 是 指 \color{#D2691E}指 指“ 小 明 \color{#6495ED}小明 小明” 还 是 \color{#EE82EE}还是 还是 指 \color{#D2691E}指 指“ 老 师 \color{#4B0082}老师 老师”。
二 义 性 \color{#6495ED}二义性 二义性: 有 些 \color{#2F4F4F}有些 有些 句 子 \color{#6495ED}句子 句子, 往 往 \color{#EE82EE}往往 往往 有 \color{#D2691E}有 有 多 种 \color{#000000}多种 多种 理 解 \color{#D2691E}理解 理解 方 式 \color{#6495ED}方式 方式, 其 中 \color{#2F4F4F}其中 其中 以 \color{#4682B4}以 以 两 \color{#000000}两 两 种 \color{#000000}种 种 理 解 \color{#D2691E}理解 理解 方 式 \color{#6495ED}方式 方式 的 \color{#EE82EE}的 的 最 为 \color{#EE82EE}最为 最为 常 见 \color{#32CD32}常见 常见, 称 \color{#D2691E}称 称 二 义 性 \color{#6495ED}二义性 二义性。
OOV 问 题 \color{#6495ED}问题 问题: 随 着 \color{#4682B4}随着 随着 词 \color{#6495ED}词 词 嵌 入 \color{#D2691E}嵌入 嵌入 技 术 \color{#6495ED}技术 技术 大 \color{#32CD32}大 大 热 \color{#32CD32}热 热 后 \color{#000000}后 后, 使 用 \color{#D2691E}使用 使用 预 \color{#EE82EE}预 预 训 练 \color{#D2691E}训练 训练 的 \color{#EE82EE}的 的 词 \color{#6495ED}词 词 向 量 \color{#6495ED}向量 向量 似 乎 \color{#EE82EE}似乎 似乎 成 为 \color{#D2691E}成为 成为 了 \color{#EE82EE}了 了 一 个 \color{#000000}一个 一个 主 流 \color{#6495ED}主流 主流。 但 \color{#EE82EE}但 但 有 \color{#D2691E}有 有 个 \color{#000000}个 个 问 题 \color{#6495ED}问题 问题 就 是 \color{#D2691E}就是 就是, 数 据 \color{#6495ED}数据 数据 中 的 \color{#D2691E}中的 中的 词 \color{#6495ED}词 词 很 \color{#EE82EE}很 很 可 能 \color{#D2691E}可能 可能 不 \color{#EE82EE}不 不 在 \color{#4682B4}在 在 预 \color{#EE82EE}预 预 训 \color{#D2691E}训 训 练 \color{#D2691E}练 练 好 \color{#32CD32}好 好 的 \color{#EE82EE}的 的 词 表 \color{#6495ED}词表 词表 里 面 \color{#000000}里面 里面, 此 \color{#2F4F4F}此 此 即 \color{#D2691E}即 即OOV(out
of
vocabulary)。 主 流 \color{#6495ED}主流 主流 方 法 \color{#6495ED}方法 方法 是 \color{#D2691E}是 是 要 么 \color{#EE82EE}要么 要么 当 做 \color{#D2691E}当做 当做UNK 处 理 \color{#D2691E}处理 处理, 要 么 \color{#EE82EE}要么 要么 生 成 \color{#D2691E}生成 生成 随 机 \color{#EE82EE}随机 随机 向 量 \color{#6495ED}向量 向量 或 \color{#EE82EE}或 或 零 \color{#000000}零 零 向 量 \color{#6495ED}向量 向量 处 理 \color{#D2691E}处理 处理, 当 然 \color{#EE82EE}当然 当然 都 \color{#EE82EE}都 都 存 在 \color{#D2691E}存在 存在 一 定 \color{#EE82EE}一定 一定 的 \color{#EE82EE}的 的 弊 端 \color{#6495ED}弊端 弊端。
文 本 \color{#6495ED}文本 文本 相 似 \color{#32CD32}相似 相似 度 \color{#000000}度 度 计 算 \color{#D2691E}计算 计算: 是 的 \color{#FA8072}是的 是的 你 \color{#2F4F4F}你 你 没 有 \color{#D2691E}没有 没有 看 \color{#D2691E}看 看 错 \color{#D2691E}错 错。 文 本 \color{#6495ED}文本 文本 相 似 \color{#32CD32}相似 相似 度 \color{#000000}度 度 计 算 \color{#D2691E}计算 计算 依 旧 \color{#EE82EE}依旧 依旧 算 是 \color{#D2691E}算是 算是 难 点 \color{#6495ED}难点 难点 之 一 \color{#2F4F4F}之一 之一。 不 过 \color{#EE82EE}不过 不过 与 其 说 \color{#EE82EE}与其说 与其说 难 点 \color{#6495ED}难点 难点, 主 要 \color{#EE82EE}主要 主要 是 \color{#D2691E}是 是 至 今 \color{#EE82EE}至今 至今 没 有 \color{#D2691E}没有 没有 一 \color{#000000}一 一 种 \color{#000000}种 种 方 法 \color{#6495ED}方法 方法 能 够 \color{#D2691E}能够 能够 从 \color{#4682B4}从 从 理 论 \color{#6495ED}理论 理论 证 明 \color{#D2691E}证明 证明。 主 流 \color{#6495ED}主流 主流 认 可 \color{#D2691E}认可 认可 的 \color{#EE82EE}的 的 是 \color{#D2691E}是 是 用 \color{#4682B4}用 用 余 弦 \color{#6495ED}余弦 余弦 相 似 \color{#32CD32}相似 相似 度 \color{#000000}度 度。 但 \color{#EE82EE}但 但 看 \color{#D2691E}看 看 论 文 \color{#6495ED}论文 论文 就 \color{#EE82EE}就 就 会 \color{#D2691E}会 会 发 现 \color{#D2691E}发现 发现, 除 了 \color{#4682B4}除了 除了 余 弦 \color{#6495ED}余弦 余弦 相 似 \color{#32CD32}相似 相似 度 \color{#000000}度 度 外 \color{#000000}外 外, 有 人 \color{#2F4F4F}有人 有人 用 \color{#4682B4}用 用 欧 式 \color{#EE82EE}欧式 欧式 距 离 \color{#6495ED}距离 距离, 有 人 \color{#2F4F4F}有人 有人 用 \color{#4682B4}用 用 曼 哈 顿 \color{#4169E1}曼哈顿 曼哈顿 距 离 \color{#6495ED}距离 距离, 有 人 \color{#2F4F4F}有人 有人 直 接 \color{#32CD32}直接 直接 向 量 \color{#6495ED}向量 向量 內 \color{#6495ED}內 內 积 \color{#D2691E}积 积, 且 \color{#EE82EE}且 且 效 果 \color{#6495ED}效果 效果 还 \color{#EE82EE}还 还 都 \color{#EE82EE}都 都 不 错 \color{#32CD32}不错 不错。
文 本 \color{#6495ED}文本 文本 生 成 \color{#D2691E}生成 生成 的 \color{#EE82EE}的 的 评 价 \color{#D2691E}评价 评价 指 标 \color{#6495ED}指标 指标: 文 本 \color{#6495ED}文本 文本 生 成 \color{#D2691E}生成 生成 的 \color{#EE82EE}的 的 评 价 \color{#D2691E}评价 评价 指 标 \color{#6495ED}指标 指标 多 \color{#32CD32}多 多 用 \color{#4682B4}用 用BLEU 或 者 \color{#EE82EE}或者 或者ROUGE, 但 \color{#EE82EE}但 但 尴 尬 \color{#32CD32}尴尬 尴尬 的 \color{#EE82EE}的 的 是 \color{#D2691E}是 是, 这 \color{#2F4F4F}这 这 两 \color{#000000}两 两 个 \color{#000000}个 个 指 标 \color{#6495ED}指标 指标 都 \color{#EE82EE}都 都 是 \color{#D2691E}是 是 基 于 \color{#4682B4}基于 基于n-gram 的 \color{#EE82EE}的 的, 也 就 是 说 \color{#FA8072}也就是说 也就是说 会 \color{#D2691E}会 会 判 断 \color{#D2691E}判断 判断 生 成 \color{#D2691E}生成 生成 的 \color{#EE82EE}的 的 句 子 \color{#6495ED}句子 句子 与 \color{#EE82EE}与 与 标 签 \color{#6495ED}标签 标签 句 子 \color{#6495ED}句子 句子 词 \color{#6495ED}词 词 粒 度 \color{#6495ED}粒度 粒度 上 \color{#000000}上 上 的 \color{#EE82EE}的 的 相 似 \color{#32CD32}相似 相似 度 \color{#000000}度 度。 然 而 \color{#EE82EE}然而 然而 由 于 \color{#4682B4}由于 由于 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 的 \color{#EE82EE}的 的 特 性 \color{#6495ED}特性 特性( 同 \color{#4682B4}同 同 一 个 \color{#000000}一个 一个 意 思 \color{#6495ED}意思 意思 可 以 \color{#D2691E}可以 可以 有 \color{#D2691E}有 有 多 \color{#32CD32}多 多 种 \color{#000000}种 种 不 同 \color{#32CD32}不同 不同 的 \color{#EE82EE}的 的 表 达 \color{#D2691E}表达 表达), 会 \color{#D2691E}会 会 出 现 \color{#D2691E}出现 出现 生 成 \color{#D2691E}生成 生成 的 \color{#EE82EE}的 的 句 子 \color{#6495ED}句子 句子 尽 管 \color{#EE82EE}尽管 尽管 被 \color{#4682B4}被 被 人 为 \color{#EE82EE}人为 人为 判 定 \color{#D2691E}判定 判定 有 \color{#D2691E}有 有 意 义 \color{#6495ED}意义 意义, 在 \color{#4682B4}在 在BLEU 或 \color{#EE82EE}或 或ROUGE 上 \color{#000000}上 上 仍 \color{#EE82EE}仍 仍 可 能 会 \color{#6495ED}可能会 可能会 得 到 \color{#D2691E}得到 得到 很 低 \color{#EE82EE}很低 很低 的 \color{#EE82EE}的 的 分 数 \color{#6495ED}分数 分数 的 \color{#EE82EE}的 的 情 况 \color{#6495ED}情况 情况。 这 \color{#2F4F4F}这 这 两 \color{#000000}两 两 个 \color{#000000}个 个 指 标 \color{#6495ED}指标 指标 用 \color{#4682B4}用 用 在 \color{#4682B4}在 在 机 \color{#6495ED}机 机 翻 \color{#D2691E}翻 翻 领 域 \color{#6495ED}领域 领域 倒 是 \color{#EE82EE}倒是 倒是 没 \color{#EE82EE}没 没 多 \color{#32CD32}多 多 大 \color{#32CD32}大 大 问 题 \color{#6495ED}问题 问题( 本 身 \color{#2F4F4F}本身 本身 就 是 \color{#D2691E}就是 就是 机 \color{#6495ED}机 机 翻 \color{#D2691E}翻 翻 的 \color{#EE82EE}的 的 评 价 \color{#D2691E}评价 评价 指 标 \color{#6495ED}指标 指标), 但 \color{#EE82EE}但 但 用 \color{#4682B4}用 用 在 \color{#4682B4}在 在 文 本 \color{#6495ED}文本 文本 摘 要 \color{#6495ED}摘要 摘要 和 \color{#EE82EE}和 和 对 话 \color{#D2691E}对话 对话 生 成 \color{#D2691E}生成 生成 就 \color{#EE82EE}就 就 明 显 \color{#32CD32}明显 明显 不 \color{#EE82EE}不 不 合 适 \color{#32CD32}合适 合适 了 \color{#EE82EE}了 了。
社 会 \color{#6495ED}社会 社会 影 响 \color{#D2691E}影响 影响
由 于 \color{#4682B4}由于 由于 自 然 \color{#6495ED}自然 自然 语 言 \color{#6495ED}语言 语言 作 为 \color{#4682B4}作为 作为 人 类 \color{#6495ED}人类 人类 社 会 \color{#6495ED}社会 社会 信 息 \color{#6495ED}信息 信息 的 \color{#EE82EE}的 的 载 体 \color{#6495ED}载体 载体, 使 得 \color{#D2691E}使得 使得NLP 不 \color{#EE82EE}不 不 只 是 \color{#EE82EE}只是 只是 计 算 机 科 学 \color{#000000}计算机科学 计算机科学 的 \color{#EE82EE}的 的 专 属 \color{#EE82EE}专属 专属。 在 \color{#4682B4}在 在 其 他 \color{#2F4F4F}其他 其他 领 域 \color{#6495ED}领域 领域, 同 样 \color{#EE82EE}同样 同样 存 在 \color{#D2691E}存在 存在 着 \color{#EE82EE}着 着 海 量 \color{#6495ED}海量 海量 的 \color{#EE82EE}的 的 文 本 \color{#6495ED}文本 文本,NLP 也 \color{#EE82EE}也 也 成 为 \color{#D2691E}成为 成为 了 \color{#EE82EE}了 了 重 要 \color{#32CD32}重要 重要 支 持 \color{#D2691E}支持 支持 技 术 \color{#6495ED}技术 技术:
在 \color{#4682B4}在 在 社 会 科 学 \color{#6495ED}社会科学 社会科学 领 域 \color{#6495ED}领域 领域, 关 系 \color{#6495ED}关系 关系 网 络 \color{#6495ED}网络 网络 挖 掘 \color{#D2691E}挖掘 挖掘、 社 交 \color{#6495ED}社交 社交 媒 体 \color{#6495ED}媒体 媒体 计 算 \color{#D2691E}计算 计算、 人 文 \color{#6495ED}人文 人文 计 算 \color{#D2691E}计算 计算 等 \color{#EE82EE}等 等, 国 内 \color{#2F4F4F}国内 国内 一 些 \color{#000000}一些 一些 著 名 \color{#32CD32}著名 著名 的 \color{#EE82EE}的 的 大 学 \color{#6495ED}大学 大学 实 验 室 \color{#6495ED}实验室 实验室, 如 \color{#D2691E}如 如 清 华 \color{#6495ED}清华 清华 的 \color{#EE82EE}的 的 自 然 语 言 处 理 \color{#6495ED}自然语言处理 自然语言处理 与 \color{#EE82EE}与 与 社 会 \color{#6495ED}社会 社会 人 文 \color{#6495ED}人文 人文 计 算 \color{#D2691E}计算 计算 实 验 室 \color{#6495ED}实验室 实验室、 哈 工 大 \color{#4169E1}哈工大 哈工大 的 \color{#EE82EE}的 的 社 会 \color{#6495ED}社会 社会 计 算 \color{#D2691E}计算 计算 与 \color{#EE82EE}与 与 信 息 检 索 \color{#000000}信息检索 信息检索 研 究 \color{#D2691E}研究 研究 中 心 \color{#6495ED}中心 中心 均 \color{#EE82EE}均 均 冠 有 \color{#4B0082}冠有 冠有 社 会 \color{#6495ED}社会 社会 计 算 \color{#D2691E}计算 计算 的 \color{#EE82EE}的 的 关 键 词 \color{#6495ED}关键词 关键词。
在 \color{#4682B4}在 在 金 融 \color{#6495ED}金融 金融 领 域 \color{#6495ED}领域 领域, 单 \color{#EE82EE}单 单A 股 \color{#000000}股 股 就 \color{#EE82EE}就 就 有 \color{#D2691E}有 有 300 \color{#000000}300 300 多 \color{#32CD32}多 多 家 \color{#000000}家 家 上 市 公 司 \color{#6495ED}上市公司 上市公司, 这 些 \color{#2F4F4F}这些 这些 公 司 \color{#6495ED}公司 公司 每 年 \color{#9370DB}每年 每年 都 \color{#EE82EE}都 都 有 \color{#D2691E}有 有 年 报 \color{#6495ED}年报 年报、 半 年 报 \color{#6495ED}半年报 半年报、 一 \color{#000000}一 一 季 报 \color{#6495ED}季报 季报、 三 \color{#000000}三 三 季 报 \color{#6495ED}季报 季报 等 等 \color{#EE82EE}等等 等等, 加 上 \color{#D2691E}加上 加上 瞬 息 万 变 \color{#D2691E}瞬息万变 瞬息万变 的 \color{#EE82EE}的 的 金 融 \color{#6495ED}金融 金融 新 闻 \color{#6495ED}新闻 新闻, 金 融 界 \color{#6495ED}金融界 金融界 的 \color{#EE82EE}的 的 文 本 \color{#6495ED}文本 文本 数 量 \color{#6495ED}数量 数量 是 \color{#D2691E}是 是 海 量 \color{#6495ED}海量 海量 的 \color{#EE82EE}的 的。 金 融 \color{#6495ED}金融 金融 领 域 \color{#6495ED}领域 领域 的 \color{#EE82EE}的 的NLP 公 司 \color{#6495ED}公司 公司 举 例 \color{#D2691E}举例 举例: 李 纪 \color{#4B0082}李纪 李纪 为 \color{#4682B4}为 为 大 佬 \color{#6495ED}大佬 大佬 的 \color{#EE82EE}的 的 香 \color{#32CD32}香 香 侬 \color{#6495ED}侬 侬 科 技 \color{#6495ED}科技 科技。
在 \color{#4682B4}在 在 法 律 \color{#6495ED}法律 法律 领 域 \color{#6495ED}领域 领域, 中 国 \color{#4169E1}中国 中国 裁 判 \color{#4B0082}裁判 裁判 文 书 \color{#4B0082}文书 文书 网 上 \color{#2F4F4F}网上 网上 就 \color{#EE82EE}就 就 有 \color{#D2691E}有 有 几 \color{#EE82EE}几 几 千 万 \color{#000000}千万 千万 公 开 \color{#32CD32}公开 公开 的 \color{#EE82EE}的 的 裁 判 \color{#4B0082}裁判 裁判 文 书 \color{#4B0082}文书 文书, 此 外 \color{#EE82EE}此外 此外 还 有 \color{#D2691E}还有 还有 丰 富 \color{#32CD32}丰富 丰富 的 \color{#EE82EE}的 的 流 程 \color{#6495ED}流程 流程 数 据 \color{#6495ED}数据 数据、 文 献 \color{#6495ED}文献 文献 数 据 \color{#6495ED}数据 数据、 法 律 \color{#6495ED}法律 法律 条 文 \color{#6495ED}条文 条文 等 \color{#EE82EE}等 等, 且 \color{#EE82EE}且 且 文 本 \color{#6495ED}文本 文本 相 对 \color{#EE82EE}相对 相对 规 范 \color{#D2691E}规范 规范。 该 \color{#2F4F4F}该 该 领 域 \color{#6495ED}领域 领域 已 经 \color{#EE82EE}已经 已经 有 \color{#D2691E}有 有 不 少 \color{#000000}不少 不少 公 司 \color{#6495ED}公司 公司 在 \color{#4682B4}在 在 做 \color{#D2691E}做 做, 如 \color{#D2691E}如 如 涂 存 超 \color{#4B0082}涂存超 涂存超 大 佬 \color{#6495ED}大佬 大佬 的 \color{#EE82EE}的 的 幂 律 \color{#4B0082}幂律 幂律 智 能 \color{#6495ED}智能 智能;
在 \color{#4682B4}在 在 医 疗 \color{#6495ED}医疗 医疗 健 康 \color{#32CD32}健康 健康 领 域 \color{#6495ED}领域 领域, 除 了 \color{#4682B4}除了 除了 影 像 \color{#6495ED}影像 影像 信 息 \color{#6495ED}信息 信息, 还 有 \color{#D2691E}还有 还有 大 量 \color{#000000}大量 大量 的 \color{#EE82EE}的 的 体 检 \color{#D2691E}体检 体检 数 据 \color{#6495ED}数据 数据、 临 床 \color{#D2691E}临床 临床 数 据 \color{#6495ED}数据 数据、 诊 断 \color{#D2691E}诊断 诊断 报 告 \color{#6495ED}报告 报告 等 \color{#EE82EE}等 等, 同 样 \color{#EE82EE}同样 同样 也 \color{#EE82EE}也 也 是 \color{#D2691E}是 是NLP 大 展 \color{#4169E1}大展 大展 身 手 \color{#6495ED}身手 身手 的 \color{#EE82EE}的 的 地 方 \color{#6495ED}地方 地方。 该 \color{#2F4F4F}该 该 领 域 \color{#6495ED}领域 领域 的 \color{#EE82EE}的 的NLP 公 司 \color{#6495ED}公司 公司: 碳 \color{#6495ED}碳 碳 云 \color{#D2691E}云 云 智 能 \color{#6495ED}智能 智能。
在 \color{#4682B4}在 在 教 育 \color{#D2691E}教育 教育 领 域 \color{#6495ED}领域 领域, 智 能 \color{#6495ED}智能 智能 阅 卷 \color{#D2691E}阅卷 阅卷、 机 器 \color{#6495ED}机器 机器 阅 读 \color{#D2691E}阅读 阅读 理 解 \color{#D2691E}理解 理解 等 \color{#EE82EE}等 等 都 \color{#EE82EE}都 都 可 以 \color{#D2691E}可以 可以 运 用 \color{#D2691E}运用 运用NLP 技 术 \color{#6495ED}技术 技术。 国 内 \color{#2F4F4F}国内 国内 这 \color{#2F4F4F}这 这 方 面 \color{#6495ED}方面 方面 目 前 \color{#9370DB}目前 目前 领 先 者 \color{#6495ED}领先者 领先者 应 该 \color{#D2691E}应该 应该 是 \color{#D2691E}是 是 科 大 \color{#6495ED}科大 科大 讯 \color{#6495ED}讯 讯 飞 \color{#D2691E}飞 飞 和 \color{#EE82EE}和 和 猿 \color{#6495ED}猿 猿 辅 导 \color{#D2691E}辅导 辅导。