什么是NLP

定 义 \color{#6495ED}定义 介 绍 \color{#D2691E}介绍

自 然 语 言 处 理 \color{#6495ED}自然语言处理 英 文 \color{#6495ED}英文 Natural Language Processing, 简 写 \color{#6495ED}简写 NLP。NLP 这 个 \color{#2F4F4F}这个 概 念 \color{#6495ED}概念 本 身 \color{#2F4F4F}本身 过 于 \color{#EE82EE}过于 庞 大 \color{#32CD32}庞大 可 以 \color{#D2691E}可以 把 \color{#4682B4}把 它 \color{#2F4F4F}它 分 成 \color{#D2691E}分成 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 和 \color{#EE82EE}和 处 理 \color{#D2691E}处理 两 \color{#000000}两 部 分 \color{#6495ED}部分 先 \color{#EE82EE}先 来 看 \color{#EE82EE}来看 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 区 分 \color{#D2691E}区分 于 \color{#4682B4}于 计 算 机 语 言 \color{#000000}计算机语言 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 是 \color{#D2691E}是 人 类 \color{#6495ED}人类 发 展 \color{#D2691E}发展 过 程 \color{#6495ED}过程 中 \color{#000000}中 形 成 \color{#D2691E}形成 的 \color{#EE82EE}的 一 \color{#000000}一 种 \color{#000000}种 信 息 \color{#6495ED}信息 交 流 \color{#D2691E}交流 的 \color{#EE82EE}的 方 式 \color{#6495ED}方式 包 括 \color{#D2691E}包括 口 语 \color{#6495ED}口语 及 \color{#EE82EE}及 书 面 语 \color{#6495ED}书面语 反 映 \color{#D2691E}反映 了 \color{#EE82EE}了 人 类 \color{#6495ED}人类 的 \color{#EE82EE}的 思 维 \color{#6495ED}思维 都 \color{#EE82EE}都 是 \color{#D2691E}是 以 \color{#4682B4}以 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 的 \color{#EE82EE}的 形 式 \color{#6495ED}形式 表 达 \color{#D2691E}表达

现 在 \color{#9370DB}现在 世 界 \color{#6495ED}世界 上 \color{#000000}上 所 有 \color{#EE82EE}所有 的 \color{#EE82EE}的 语 种 \color{#6495ED}语种 语 言 \color{#6495ED}语言 都 \color{#EE82EE}都 属 于 \color{#D2691E}属于 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 包 括 \color{#D2691E}包括 汉 语 \color{#000000}汉语 英 语 \color{#6495ED}英语 法 语 \color{#6495ED}法语 等 \color{#EE82EE}等 然 后 \color{#EE82EE}然后 再 \color{#EE82EE}再 来 看 \color{#EE82EE}来看 处 理 \color{#D2691E}处理 ”。 如 果 \color{#EE82EE}如果 只 是 \color{#EE82EE}只是 人 工 \color{#EE82EE}人工 处 理 \color{#D2691E}处理 的 话 \color{#EE82EE}的话 那 \color{#2F4F4F}那 原 本 \color{#EE82EE}原本 就 \color{#EE82EE}就 有 \color{#D2691E}有 专 门 \color{#EE82EE}专门 的 \color{#EE82EE}的 语 言 学 \color{#6495ED}语言学 来 \color{#D2691E}来 研 究 \color{#D2691E}研究 也 \color{#EE82EE}也 没 \color{#EE82EE}没 必 要 \color{#32CD32}必要 特 地 \color{#EE82EE}特地 强 调 \color{#D2691E}强调 自 然 \color{#6495ED}自然 ”。 因 此 \color{#EE82EE}因此 这 个 \color{#2F4F4F}这个 处 理 \color{#D2691E}处理 必 须 \color{#EE82EE}必须 是 \color{#D2691E}是 计 算 机 \color{#6495ED}计算机 处 理 \color{#D2691E}处理 的 \color{#EE82EE}的 但 \color{#EE82EE}但 计 算 机 \color{#6495ED}计算机 毕 竟 \color{#EE82EE}毕竟 不 是 \color{#EE82EE}不是 人 \color{#6495ED}人 无 法 \color{#D2691E}无法 像 \color{#D2691E}像 人 \color{#6495ED}人 一 样 \color{#EE82EE}一样 处 理 \color{#D2691E}处理 文 本 \color{#6495ED}文本 需 要 \color{#D2691E}需要 有 \color{#D2691E}有 自 己 \color{#2F4F4F}自己 的 \color{#EE82EE}的 处 理 \color{#D2691E}处理 方 式 \color{#6495ED}方式 因 此 \color{#EE82EE}因此 自 然 语 言 处 理 \color{#6495ED}自然语言处理 简 单 \color{#32CD32}简单 来 说 \color{#EE82EE}来说 即 \color{#D2691E}即 是 \color{#D2691E}是 计 算 机 \color{#6495ED}计算机 接 受 \color{#D2691E}接受 用 户 \color{#6495ED}用户 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 形 式 \color{#6495ED}形式 的 \color{#EE82EE}的 输 入 \color{#D2691E}输入 并 \color{#EE82EE}并 在 \color{#4682B4}在 内 部 \color{#000000}内部 通 过 \color{#4682B4}通过 人 类 \color{#6495ED}人类 所 \color{#EE82EE}所 定 义 \color{#6495ED}定义 的 \color{#EE82EE}的 算 法 \color{#6495ED}算法 进 行 \color{#D2691E}进行 加 工 \color{#D2691E}加工 计 算 \color{#D2691E}计算 等 \color{#EE82EE}等 系 列 \color{#6495ED}系列 操 作 \color{#D2691E}操作 以 \color{#4682B4}以 模 拟 \color{#D2691E}模拟 人 类 \color{#6495ED}人类 对 \color{#4682B4}对 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 的 \color{#EE82EE}的 理 解 \color{#D2691E}理解 并 \color{#EE82EE}并 返 回 \color{#D2691E}返回 用 户 \color{#6495ED}用户 所 \color{#EE82EE}所 期 望 \color{#D2691E}期望 的 \color{#EE82EE}的 结 果 \color{#6495ED}结果 正 如 \color{#D2691E}正如 机 械 \color{#6495ED}机械 解 放 \color{#D2691E}解放 人 类 \color{#6495ED}人类 的 \color{#EE82EE}的 双 手 \color{#6495ED}双手 一 样 \color{#EE82EE}一样 自 然 语 言 处 理 \color{#6495ED}自然语言处理 的 \color{#EE82EE}的 目 的 \color{#6495ED}目的 在 于 \color{#D2691E}在于 用 \color{#4682B4}用 计 算 机 \color{#6495ED}计算机 代 替 \color{#D2691E}代替 人 工 \color{#EE82EE}人工 来 \color{#D2691E}来 处 理 \color{#D2691E}处理 大 规 模 \color{#EE82EE}大规模 的 \color{#EE82EE}的 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 信 息 \color{#6495ED}信息 它 \color{#2F4F4F}它 是 \color{#D2691E}是 人 工 智 能 \color{#6495ED}人工智能 计 算 机 \color{#6495ED}计算机 科 学 \color{#6495ED}科学 信 息 工 程 \color{#4169E1}信息工程 的 \color{#EE82EE}的 交 叉 \color{#D2691E}交叉 领 域 \color{#6495ED}领域 涉 及 \color{#D2691E}涉及 统 计 学 \color{#6495ED}统计学 语 言 学 \color{#6495ED}语言学 等 \color{#EE82EE}等 的 \color{#EE82EE}的 知 识 \color{#6495ED}知识 由 于 \color{#4682B4}由于 语 言 \color{#6495ED}语言 是 \color{#D2691E}是 人 类 \color{#6495ED}人类 思 维 \color{#6495ED}思维 的 \color{#EE82EE}的 证 明 \color{#D2691E}证明 故 \color{#EE82EE}故 自 然 语 言 处 理 \color{#6495ED}自然语言处理 是 \color{#D2691E}是 人 工 智 能 \color{#6495ED}人工智能 的 \color{#EE82EE}的 最 高 \color{#32CD32}最高 境 界 \color{#6495ED}境界 被 \color{#4682B4}被 誉 为 \color{#D2691E}誉为 人 工 智 能 \color{#6495ED}人工智能 皇 冠 \color{#6495ED}皇冠 上 \color{#000000}上 的 \color{#EE82EE}的 明 珠 \color{#6495ED}明珠 ”。

发 展 \color{#D2691E}发展 历 程 \color{#6495ED}历程

1948 \color{#000000}1948 1948 年 \color{#000000}年 香 \color{#32CD32}香 农 \color{#6495ED}农 提 出 \color{#D2691E}提出 信 息 \color{#6495ED}信息 熵 \color{#6495ED}熵 的 \color{#EE82EE}的 概 念 \color{#6495ED}概念 此 时 \color{#2F4F4F}此时 尚 未 \color{#EE82EE}尚未 有 \color{#D2691E}有 NLP, 但 \color{#EE82EE}但 由 于 \color{#4682B4}由于 熵 \color{#6495ED}熵 也 \color{#EE82EE}也 是 \color{#D2691E}是 NLP 的 \color{#EE82EE}的 基 石 \color{#6495ED}基石 之 一 \color{#2F4F4F}之一 在 \color{#4682B4}在 此 \color{#2F4F4F}此 也 \color{#EE82EE}也 算 作 \color{#D2691E}算作 是 \color{#D2691E}是 NLP 的 \color{#EE82EE}的 发 展 \color{#D2691E}发展 历 程 \color{#6495ED}历程

按 照 \color{#4682B4}按照 维 基 \color{#4B0082}维基 百 科 \color{#6495ED}百科 的 \color{#EE82EE}的 说 法 \color{#6495ED}说法 ,NLP 发 源 \color{#D2691E}发源 于 \color{#4682B4}于 1950 \color{#000000}1950 1950 年 \color{#000000}年 图 灵 \color{#000000}图灵 于 \color{#4682B4}于 该 \color{#2F4F4F}该 年 \color{#000000}年 提 出 \color{#D2691E}提出 图 灵 \color{#000000}图灵 测 试 \color{#D2691E}测试 ”, 用 以 \color{#EE82EE}用以 检 验 \color{#D2691E}检验 计 算 机 \color{#6495ED}计算机 是 否 \color{#D2691E}是否 真 正 \color{#EE82EE}真正 拥 有 \color{#D2691E}拥有 智 能 \color{#6495ED}智能

NLP 规 则 \color{#6495ED}规则 时 代 \color{#6495ED}时代

1950 \color{#000000}1950 1950- 1970 \color{#000000}1970 1970 年 \color{#000000}年 模 拟 \color{#D2691E}模拟 人 类 \color{#6495ED}人类 学 习 \color{#D2691E}学习 语 言 \color{#6495ED}语言 的 \color{#EE82EE}的 习 惯 \color{#6495ED}习惯 以 \color{#4682B4}以 语 法 \color{#6495ED}语法 规 则 \color{#6495ED}规则 为 \color{#4682B4}为 主 流 \color{#6495ED}主流 除 了 \color{#4682B4}除了 参 照 \color{#D2691E}参照 乔 姆 \color{#4B0082}乔姆 斯 基 \color{#4B0082}斯基 文 法 \color{#6495ED}文法 规 则 \color{#6495ED}规则 定 义 \color{#6495ED}定义 的 \color{#EE82EE}的 上 下 文 \color{#6495ED}上下文 无 关 \color{#D2691E}无关 文 法 \color{#6495ED}文法 规 则 \color{#6495ED}规则 外 \color{#000000}外 ,NLP 领 域 \color{#6495ED}领域 几 乎 \color{#EE82EE}几乎 毫 无 \color{#D2691E}毫无 建 树 \color{#6495ED}建树

NLP 统 计 \color{#D2691E}统计 时 代 \color{#6495ED}时代

20 \color{#000000}20 20 世 纪 \color{#000000}世纪 70 \color{#000000}70 70 年 代 \color{#6495ED}年代 开 始 \color{#D2691E}开始 统 计 \color{#D2691E}统计 学 派 \color{#6495ED}学派 盛 行 \color{#D2691E}盛行 ,NLP 转 向 \color{#D2691E}转向 统 计 \color{#D2691E}统计 方 法 \color{#6495ED}方法 此 时 \color{#2F4F4F}此时 的 \color{#EE82EE}的 核 心 \color{#6495ED}核心 是 \color{#D2691E}是 以 \color{#4682B4}以 具 有 \color{#D2691E}具有 马 尔 \color{#4B0082}马尔 科 夫 \color{#4B0082}科夫 性 质 \color{#6495ED}性质 的 \color{#EE82EE}的 模 型 \color{#6495ED}模型 包 括 \color{#D2691E}包括 语 言 \color{#6495ED}语言 模 型 \color{#6495ED}模型 隐 \color{#D2691E}隐 马 尔 \color{#4B0082}马尔 可 夫 \color{#6495ED}可夫 模 型 \color{#6495ED}模型 等 \color{#EE82EE}等 )。

2001 \color{#000000}2001 2001 年 \color{#000000}年 神 经 \color{#6495ED}神经 语 言 \color{#6495ED}语言 模 型 \color{#6495ED}模型 将 \color{#EE82EE}将 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 和 \color{#EE82EE}和 语 言 \color{#6495ED}语言 模 型 \color{#6495ED}模型 相 结 合 \color{#6495ED}相结合 应 该 \color{#D2691E}应该 是 \color{#D2691E}是 历 史 \color{#6495ED}历史 上 \color{#000000}上 第 一 \color{#000000}第一 次 \color{#000000}次 用 \color{#4682B4}用 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 得 到 \color{#D2691E}得到 词 \color{#6495ED}词 嵌 入 \color{#D2691E}嵌入 矩 阵 \color{#6495ED}矩阵 是 \color{#D2691E}是 后 来 \color{#9370DB}后来 所 有 \color{#EE82EE}所有 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 词 \color{#6495ED}词 嵌 入 \color{#D2691E}嵌入 技 术 \color{#6495ED}技术 的 \color{#EE82EE}的 实 践 \color{#D2691E}实践 基 础 \color{#6495ED}基础 也 \color{#EE82EE}也 证 明 了 \color{#D2691E}证明了 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 建 模 \color{#000000}建模 语 言 \color{#6495ED}语言 模 型 \color{#6495ED}模型 的 \color{#EE82EE}的 可 能 性 \color{#6495ED}可能性

2001 \color{#000000}2001 2001 年 \color{#000000}年 条 件 \color{#6495ED}条件 随 \color{#4682B4}随 机 场 \color{#6495ED}机场 CRF, 从 \color{#4682B4}从 提 出 \color{#D2691E}提出 开 始 \color{#D2691E}开始 就 \color{#EE82EE}就 一 直 \color{#EE82EE}一直 是 \color{#D2691E}是 序 列 \color{#6495ED}序列 标 注 \color{#D2691E}标注 问 题 \color{#6495ED}问题 的 \color{#EE82EE}的 利 器 \color{#6495ED}利器 即 便 \color{#EE82EE}即便 便 是 \color{#D2691E}是 深 度 \color{#6495ED}深度 学 习 \color{#D2691E}学习 的 \color{#EE82EE}的 现 在 \color{#9370DB}现在 也 \color{#EE82EE}也 常 加 \color{#4B0082}常加 在 \color{#4682B4}在 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 的 \color{#EE82EE}的 上 面 \color{#000000}上面 用 以 \color{#EE82EE}用以 修 正 \color{#D2691E}修正 输 出 \color{#D2691E}输出 序 列 \color{#6495ED}序列

2003 \color{#000000}2003 2003 年 \color{#000000}年 ,LDA 模 型 \color{#6495ED}模型 提 出 \color{#D2691E}提出 概 率 \color{#6495ED}概率 图 \color{#6495ED}图 模 型 \color{#6495ED}模型 大 放 异 彩 \color{#D2691E}大放异彩 ,NLP 从 此 \color{#EE82EE}从此 进 入 \color{#D2691E}进入 主 题 \color{#6495ED}主题 时 代 \color{#6495ED}时代 。Topic 模 型 \color{#6495ED}模型 变 种 \color{#6495ED}变种 极 \color{#EE82EE}极 多 \color{#32CD32}多 参 数 \color{#6495ED}参数 模 型 \color{#6495ED}模型 LDA, 非 \color{#EE82EE}非 参 数 \color{#6495ED}参数 模 型 \color{#6495ED}模型 HDP, 有 \color{#D2691E}有 监 督 \color{#D2691E}监督 的 \color{#EE82EE}的 LabelLDA,PLDA 等 \color{#EE82EE}等

2008 \color{#000000}2008 2008 年 \color{#000000}年 分 布 式 \color{#EE82EE}分布式 假 设 \color{#6495ED}假设 理 论 \color{#6495ED}理论 提 出 \color{#D2691E}提出 为 \color{#4682B4}为 词 \color{#6495ED}词 嵌 入 \color{#D2691E}嵌入 技 术 \color{#6495ED}技术 的 \color{#EE82EE}的 理 论 \color{#6495ED}理论 基 础 \color{#6495ED}基础

在 \color{#4682B4}在 统 计 \color{#D2691E}统计 时 代 \color{#6495ED}时代 ,NLP 专 注 \color{#D2691E}专注 于 \color{#4682B4}于 数 据 \color{#6495ED}数据 本 身 \color{#2F4F4F}本身 的 \color{#EE82EE}的 分 布 \color{#D2691E}分布 如 何 \color{#2F4F4F}如何 从 \color{#4682B4}从 文 本 \color{#6495ED}文本 的 \color{#EE82EE}的 分 布 \color{#D2691E}分布 中 \color{#000000}中 设 计 \color{#D2691E}设计 更 多 \color{#32CD32}更多 更 好 \color{#EE82EE}更好 的 \color{#EE82EE}的 特 征 \color{#6495ED}特征 模 式 \color{#6495ED}模式 是 \color{#D2691E}是 这 \color{#2F4F4F}这 时 期 \color{#6495ED}时期 的 \color{#EE82EE}的 主 流 \color{#6495ED}主流 在 \color{#4682B4}在 这 \color{#2F4F4F}这 期 间 \color{#000000}期间 还 有 \color{#D2691E}还有 其 他 \color{#2F4F4F}其他 许 多 \color{#000000}许多 经 典 \color{#6495ED}经典 的 \color{#EE82EE}的 NLP 传 统 \color{#6495ED}传统 算 法 \color{#6495ED}算法 诞 生 \color{#D2691E}诞生 包 括 \color{#D2691E}包括 tfidf、BM 25 \color{#000000}25 25、PageRank、LSI、 向 量 \color{#6495ED}向量 空 间 \color{#6495ED}空间 与 \color{#EE82EE}与 余 弦 \color{#6495ED}余弦 距 离 \color{#6495ED}距离 等 \color{#EE82EE}等 值 得 一 提 的 是 \color{#FA8072}值得一提的是 在 \color{#4682B4}在 20 \color{#000000}20 20 世 纪 \color{#000000}世纪 80 \color{#000000}80 80 90 \color{#000000}90 90 年 代 \color{#6495ED}年代 卷 \color{#000000}卷 积 \color{#D2691E}积 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 循 环 \color{#D2691E}循环 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 等 \color{#EE82EE}等 就 \color{#EE82EE}就 已 经 \color{#EE82EE}已经 被 \color{#4682B4}被 提 出 \color{#D2691E}提出 但 \color{#EE82EE}但 受 限 \color{#D2691E}受限 于 \color{#4682B4}于 计 算 \color{#D2691E}计算 能 力 \color{#6495ED}能力 ,NLP 的 \color{#EE82EE}的 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 方 向 \color{#6495ED}方向 不 \color{#EE82EE}不 适 于 \color{#D2691E}适于 部 署 \color{#D2691E}部署 训 练 \color{#D2691E}训练 多 \color{#32CD32}多 停 留 \color{#D2691E}停留 于 \color{#4682B4}于 理 论 \color{#6495ED}理论 阶 段 \color{#6495ED}阶段

NLP 深 度 \color{#6495ED}深度 时 代 \color{#6495ED}时代

2013 \color{#000000}2013 2013 年 \color{#000000}年 ,word2vec 提 出 \color{#D2691E}提出 ,NLP 的 \color{#EE82EE}的 里 程 碑 式 \color{#EE82EE}里程碑式 技 术 \color{#6495ED}技术

2013 \color{#000000}2013 2013 年 \color{#000000}年 ,CNNs/RNNs/Recursive
NN, 随 着 \color{#4682B4}随着 算 \color{#D2691E}算 力 \color{#6495ED}力 的 \color{#EE82EE}的 发 展 \color{#D2691E}发展 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 可 以 \color{#D2691E}可以 越 \color{#EE82EE}越 做 \color{#D2691E}做 越 深 \color{#6495ED}越深 之 前 \color{#000000}之前 受 限 \color{#D2691E}受限 的 \color{#EE82EE}的 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 不 再 \color{#EE82EE}不再 停 留 \color{#D2691E}停留 在 \color{#4682B4}在 理 论 \color{#6495ED}理论 阶 段 \color{#6495ED}阶段 在 \color{#4682B4}在 图 像 \color{#6495ED}图像 领 域 \color{#6495ED}领域 证 明 \color{#D2691E}证明 过 \color{#EE82EE}过 实 力 \color{#6495ED}实力 后 \color{#000000}后 ,Text
CNN 问 世 \color{#D2691E}问世 同 时 \color{#EE82EE}同时 ,RNNs 也 \color{#EE82EE}也 开 始 \color{#D2691E}开始 崛 起 \color{#D2691E}崛起 在 \color{#4682B4}在 如 今 \color{#9370DB}如今 的 \color{#EE82EE}的 NLP 技 术 \color{#6495ED}技术 上 \color{#000000}上 一 般 \color{#32CD32}一般 都 \color{#EE82EE}都 能 \color{#D2691E}能 看 见 \color{#D2691E}看见 CNN/LSTM 的 \color{#EE82EE}的 影 子 \color{#6495ED}影子

本 世 纪 \color{#9370DB}本世纪 算 \color{#D2691E}算 力 \color{#6495ED}力 的 \color{#EE82EE}的 提 升 \color{#D2691E}提升 使 \color{#D2691E}使 使 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 的 \color{#EE82EE}的 计 算 \color{#D2691E}计算 不 再 \color{#EE82EE}不再 受 限 \color{#D2691E}受限 有 \color{#D2691E}有 了 \color{#EE82EE}了 深 度 \color{#6495ED}深度 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 加 上 \color{#D2691E}加上 嵌 入 \color{#D2691E}嵌入 技 术 \color{#6495ED}技术 人 们 \color{#6495ED}人们 发 现 \color{#D2691E}发现 虽 然 \color{#EE82EE}虽然 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 是 \color{#D2691E}是 个 \color{#000000}个 黑 盒 子 \color{#6495ED}黑盒子 但 \color{#EE82EE}但 能 \color{#D2691E}能 省 去 \color{#D2691E}省去 好 多 \color{#000000}好多 设 计 \color{#D2691E}设计 特 征 \color{#6495ED}特征 的 \color{#EE82EE}的 精 力 \color{#6495ED}精力 至 此 \color{#EE82EE}至此 ,NLP 深 度 \color{#6495ED}深度 学 习 \color{#D2691E}学习 时 代 \color{#6495ED}时代 开 启 \color{#D2691E}开启

2014 \color{#000000}2014 2014 年 \color{#000000}年 ,seq2seq 提 出 \color{#D2691E}提出 在 \color{#4682B4}在 机 器 翻 译 \color{#FA8072}机器翻译 领 域 \color{#6495ED}领域 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 碾 压 \color{#D2691E}碾压 基 于 \color{#4682B4}基于 统 计 \color{#D2691E}统计 的 \color{#EE82EE}的 SMT 模 型 \color{#6495ED}模型

2015 \color{#000000}2015 2015 年 \color{#000000}年 ,attention 提 出 \color{#D2691E}提出 可 以 \color{#D2691E}可以 说 \color{#D2691E}说 是 \color{#D2691E}是 NLP 另 \color{#2F4F4F}另 一 \color{#000000}一 里 程 碑 式 \color{#EE82EE}里程碑式 的 \color{#EE82EE}的 存 在 \color{#D2691E}存在 带 \color{#D2691E}带 attention 的 \color{#EE82EE}的 seq2seq, 碾 压 \color{#D2691E}碾压 上 \color{#000000}上 一 \color{#000000}一 年 \color{#000000}年 的 \color{#EE82EE}的 原 始 \color{#32CD32}原始 seq2seq。 记 得 \color{#D2691E}记得 好 像 \color{#D2691E}好像 17 \color{#000000}17 17 年 \color{#000000}年 年 初 \color{#9370DB}年初 看 过 \color{#D2691E}看过 一 \color{#000000}一 张 \color{#000000}张 图 \color{#6495ED}图 调 侃 \color{#D2691E}调侃 当 时 \color{#9370DB}当时 学 术 界 \color{#6495ED}学术界 都 \color{#EE82EE}都 是 \color{#D2691E}是 attention 的 \color{#EE82EE}的 现 象 \color{#6495ED}现象 也 \color{#EE82EE}也 证 明 了 \color{#D2691E}证明了 attention 神 \color{#6495ED}神 一 般 \color{#32CD32}一般 的 \color{#EE82EE}的 效 果 \color{#6495ED}效果

2017 \color{#000000}2017 2017 年 末 \color{#9370DB}年末 ,Transformer 提 出 \color{#D2691E}提出 似 乎 \color{#EE82EE}似乎 是 \color{#D2691E}是 为 了 \color{#4682B4}为了 应 对 \color{#D2691E}应对 Facebook 纯 \color{#32CD32}纯 用 \color{#4682B4}用 CNN 来 \color{#D2691E}来 做 \color{#D2691E}做 seq2seq 的 \color{#EE82EE}的 挑 衅 \color{#D2691E}挑衅 ”,google 就 \color{#EE82EE}就 纯 \color{#32CD32}纯 用 \color{#4682B4}用 attention, 并 \color{#EE82EE}并 发 表 \color{#D2691E}发表 著 名 \color{#32CD32}著名 的 \color{#EE82EE}的 《Attention is All You Need》。 初 看 \color{#6495ED}初看 时 \color{#000000}时 以 为 \color{#D2691E}以为 其 \color{#2F4F4F}其 工 程 \color{#6495ED}工程 意 义 \color{#6495ED}意义 大 于 \color{#D2691E}大于 学 术 \color{#6495ED}学术 意 义 \color{#6495ED}意义 直 到 \color{#D2691E}直到 BERT 的 \color{#EE82EE}的 提 出 \color{#D2691E}提出 才 \color{#EE82EE}才 知 道 \color{#D2691E}知道 自 己 \color{#2F4F4F}自己 还 是 \color{#EE82EE}还是 too young。

2018 \color{#000000}2018 2018 年 末 \color{#9370DB}年末 ,BERT 提 出 \color{#D2691E}提出 横 扫 \color{#D2691E}横扫 11 \color{#000000}11 11 项 \color{#000000}项 NLP 任 务 \color{#6495ED}任务 奠 定 \color{#D2691E}奠定 了 \color{#EE82EE}了 预 \color{#EE82EE}预 训 练 \color{#D2691E}训练 模 型 \color{#6495ED}模型 方 法 \color{#6495ED}方法 的 \color{#EE82EE}的 地 位 \color{#6495ED}地位 ,NLP 又 \color{#EE82EE}又 一 \color{#000000}一 里 程 碑 \color{#6495ED}里程碑 诞 生 \color{#D2691E}诞生 光 \color{#6495ED}光 就 \color{#EE82EE}就 SQuAD 2.0 \color{#000000}2.0 2.0 上 前 \color{#D2691E}上前 6 名 \color{#000000}名 都 \color{#EE82EE}都 用 \color{#4682B4}用 了 \color{#EE82EE}了 BERT 技 术 \color{#6495ED}技术 就 \color{#EE82EE}就 知 道 \color{#D2691E}知道 BERT 的 \color{#EE82EE}的 可 怕 \color{#32CD32}可怕

深 度 \color{#6495ED}深度 学 习 \color{#D2691E}学习 时 代 \color{#6495ED}时代 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 能 够 \color{#D2691E}能够 自 动 \color{#EE82EE}自动 从 \color{#4682B4}从 数 据 \color{#6495ED}数据 中 \color{#000000}中 挖 掘 \color{#D2691E}挖掘 特 征 \color{#6495ED}特征 人 们 \color{#6495ED}人们 从 \color{#4682B4}从 复 杂 \color{#32CD32}复杂 的 \color{#EE82EE}的 特 征 \color{#6495ED}特征 中 \color{#000000}中 脱 离 \color{#D2691E}脱离 出 来 \color{#D2691E}出来 得 以 \color{#D2691E}得以 更 \color{#EE82EE}更 专 注 \color{#D2691E}专注 于 \color{#4682B4}于 模 型 \color{#6495ED}模型 算 法 \color{#6495ED}算法 本 身 \color{#2F4F4F}本身 的 \color{#EE82EE}的 创 新 \color{#D2691E}创新 以 及 \color{#EE82EE}以及 理 论 \color{#6495ED}理论 的 \color{#EE82EE}的 突 破 \color{#D2691E}突破 并 且 \color{#EE82EE}并且 深 度 \color{#6495ED}深度 学 习 \color{#D2691E}学习 从 \color{#4682B4}从 一 \color{#000000}一 开 始 \color{#D2691E}开始 的 \color{#EE82EE}的 机 器 翻 译 \color{#FA8072}机器翻译 领 域 \color{#6495ED}领域 逐 渐 \color{#EE82EE}逐渐 扩 散 \color{#D2691E}扩散 到 \color{#D2691E}到 NLP 其 他 \color{#2F4F4F}其他 领 域 \color{#6495ED}领域 传 统 \color{#6495ED}传统 的 \color{#EE82EE}的 经 典 \color{#6495ED}经典 算 法 \color{#6495ED}算法 地 位 \color{#6495ED}地位 大 \color{#32CD32}大 不 如 \color{#D2691E}不如 前 \color{#000000}前 但 \color{#EE82EE}但 神 经 \color{#6495ED}神经 网 络 \color{#6495ED}网络 似 乎 \color{#EE82EE}似乎 一 直 \color{#EE82EE}一直 是 \color{#D2691E}是 个 \color{#000000}个 黑 箱 \color{#000000}黑箱 可 \color{#D2691E}可 解 释 \color{#D2691E}解释 性 \color{#6495ED}性 一 直 \color{#EE82EE}一直 是 \color{#D2691E}是 个 \color{#000000}个 痛 \color{#32CD32}痛 点 \color{#000000}点 且 \color{#EE82EE}且 由 于 \color{#4682B4}由于 其 \color{#2F4F4F}其 复 杂 度 \color{#6495ED}复杂度 更 高 \color{#EE82EE}更高 在 \color{#4682B4}在 工 业 界 \color{#6495ED}工业界 经 典 \color{#6495ED}经典 算 法 \color{#6495ED}算法 似 乎 \color{#EE82EE}似乎 还 是 \color{#EE82EE}还是 占 据 \color{#D2691E}占据 主 流 \color{#6495ED}主流

基 本 \color{#32CD32}基本 分 类 \color{#D2691E}分类

NLP 里 \color{#000000}里 细 分 \color{#D2691E}细分 领 域 \color{#6495ED}领域 和 \color{#EE82EE}和 技 术 \color{#6495ED}技术 实 在 \color{#EE82EE}实在 太 多 \color{#32CD32}太多 根 据 \color{#4682B4}根据 NLP 的 \color{#EE82EE}的 终 极 \color{#6495ED}终极 目 标 \color{#6495ED}目标 大 致 \color{#EE82EE}大致 可 以 \color{#D2691E}可以 分 为 \color{#D2691E}分为 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 理 解 \color{#D2691E}理解 (NLU) 和 \color{#EE82EE}和 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 生 成 \color{#D2691E}生成 (NLG) 两 \color{#000000}两 种 \color{#000000}种

NLU 侧 重 \color{#D2691E}侧重 于 \color{#4682B4}于 如 何 \color{#2F4F4F}如何 理 解 \color{#D2691E}理解 文 本 \color{#6495ED}文本 包 括 \color{#D2691E}包括 文 本 \color{#6495ED}文本 分 类 \color{#D2691E}分类 命 名 \color{#D2691E}命名 实 体 \color{#6495ED}实体 识 别 \color{#D2691E}识别 指 \color{#D2691E}指 代 \color{#000000}代 消 \color{#D2691E}消 歧 \color{#32CD32}歧 句 法 \color{#6495ED}句法 分 析 \color{#D2691E}分析 机 器 \color{#6495ED}机器 阅 读 \color{#D2691E}阅读 理 解 \color{#D2691E}理解 等 \color{#EE82EE}等

NLG 则 \color{#EE82EE}则 侧 重 \color{#D2691E}侧重 于 \color{#4682B4}于 理 解 \color{#D2691E}理解 文 本 \color{#6495ED}文本 后 \color{#000000}后 如 何 \color{#2F4F4F}如何 生 成 \color{#D2691E}生成 自 然 \color{#6495ED}自然 文 本 \color{#6495ED}文本 包 括 \color{#D2691E}包括 自 动 \color{#EE82EE}自动 摘 要 \color{#6495ED}摘要 机 器 翻 译 \color{#FA8072}机器翻译 问 答 \color{#D2691E}问答 系 统 \color{#6495ED}系统 对 话 \color{#D2691E}对话 机 器 人 \color{#6495ED}机器人 等 \color{#EE82EE}等 两 者 \color{#2F4F4F}两者 间 \color{#000000}间 不 \color{#EE82EE}不 存 在 \color{#D2691E}存在 有 \color{#D2691E}有 明 显 \color{#32CD32}明显 的 \color{#EE82EE}的 界 限 \color{#6495ED}界限 如 \color{#D2691E}如 机 器 \color{#6495ED}机器 阅 读 \color{#D2691E}阅读 理 解 \color{#D2691E}理解 实 际 \color{#6495ED}实际 属 于 \color{#D2691E}属于 问 答 \color{#D2691E}问答 系 统 \color{#6495ED}系统 的 \color{#EE82EE}的 一 个 \color{#000000}一个 子 \color{#6495ED}子 领 域 \color{#6495ED}领域

大 致 \color{#EE82EE}大致 来 说 \color{#EE82EE}来说 ,NLP 可 以 \color{#D2691E}可以 分 为 \color{#D2691E}分为 以 下 \color{#000000}以下 几 \color{#EE82EE}几 个 \color{#000000}个 领 域 \color{#6495ED}领域

文 本 \color{#6495ED}文本 检 索 \color{#D2691E}检索

多 \color{#32CD32}多 用 于 \color{#D2691E}用于 大 规 模 \color{#EE82EE}大规模 数 据 \color{#6495ED}数据 的 \color{#EE82EE}的 检 索 \color{#D2691E}检索 典 型 \color{#6495ED}典型 的 \color{#EE82EE}的 应 用 \color{#D2691E}应用 有 \color{#D2691E}有 搜 索 引 擎 \color{#6495ED}搜索引擎

机 器 翻 译 \color{#FA8072}机器翻译

跨 \color{#D2691E}跨 语 种 \color{#6495ED}语种 翻 译 \color{#D2691E}翻译 该 \color{#2F4F4F}该 领 域 \color{#6495ED}领域 目 前 \color{#9370DB}目前 已 \color{#EE82EE}已 较 为 \color{#EE82EE}较为 成 熟 \color{#32CD32}成熟 目 前 \color{#9370DB}目前 谷 歌 \color{#4169E1}谷歌 翻 译 \color{#D2691E}翻译 已 \color{#EE82EE}已 用 \color{#4682B4}用 上 机 \color{#D2691E}上机 翻 \color{#D2691E}翻 技 术 \color{#6495ED}技术

文 本 \color{#6495ED}文本 分 类 \color{#D2691E}分类 / 情 感 \color{#6495ED}情感 分 析 \color{#D2691E}分析

本 质 \color{#6495ED}本质 上 \color{#000000}上 就 是 \color{#D2691E}就是 个 \color{#000000}个 分 类 \color{#D2691E}分类 问 题 \color{#6495ED}问题 目 前 \color{#9370DB}目前 也 \color{#EE82EE}也 较 为 \color{#EE82EE}较为 成 熟 \color{#32CD32}成熟 难 点 \color{#6495ED}难点 在 于 \color{#D2691E}在于 多 \color{#32CD32}多 标 签 \color{#6495ED}标签 分 类 \color{#D2691E}分类 即 \color{#D2691E}即 一 个 \color{#000000}一个 文 本 \color{#6495ED}文本 对 应 \color{#D2691E}对应 多 \color{#32CD32}多 个 \color{#000000}个 标 签 \color{#6495ED}标签 把 \color{#4682B4}把 这 些 \color{#2F4F4F}这些 标 签 \color{#6495ED}标签 全 部 \color{#000000}全部 找 到 \color{#D2691E}找到 以 及 \color{#EE82EE}以及 细 粒 \color{#6495ED}细粒 度 \color{#000000}度 分 类 \color{#D2691E}分类 二 \color{#000000}二 极 \color{#EE82EE}极 情 感 \color{#6495ED}情感 分 类 \color{#D2691E}分类 精 度 \color{#6495ED}精度 很 高 \color{#EE82EE}很高 即 \color{#D2691E}即 好 \color{#32CD32}好 中 \color{#000000}中 差 \color{#32CD32}差 三 类 \color{#EE82EE}三类 而 \color{#EE82EE}而 五 \color{#000000}五 级 \color{#000000}级 情 感 \color{#6495ED}情感 分 类 \color{#D2691E}分类 精 度 \color{#6495ED}精度 仍 然 \color{#EE82EE}仍然 较 低 \color{#EE82EE}较低 即 \color{#D2691E}即 好 \color{#32CD32}好 较 好 \color{#EE82EE}较好 中 \color{#000000}中 较 差 \color{#EE82EE}较差 差 \color{#32CD32}差

信 息 \color{#6495ED}信息 抽 取 \color{#D2691E}抽取

从 \color{#4682B4}从 不 规 则 \color{#32CD32}不规则 文 本 \color{#6495ED}文本 中 \color{#000000}中 抽 取 \color{#D2691E}抽取 想 \color{#D2691E}想 要 \color{#D2691E}要 的 \color{#EE82EE}的 信 息 \color{#6495ED}信息 包 括 \color{#D2691E}包括 命 名 \color{#D2691E}命名 实 体 \color{#6495ED}实体 识 别 \color{#D2691E}识别 关 系 \color{#6495ED}关系 抽 取 \color{#D2691E}抽取 事 件 \color{#6495ED}事件 抽 取 \color{#D2691E}抽取 等 \color{#EE82EE}等 应 用 \color{#D2691E}应用 极 广 \color{#6495ED}极广 广

序 列 \color{#6495ED}序列 标 注 \color{#D2691E}标注

给 \color{#4682B4}给 文 本 \color{#6495ED}文本 中 的 \color{#D2691E}中的 每 \color{#2F4F4F}每 一 个 \color{#000000}一个 字 \color{#6495ED}字 / 词 \color{#6495ED}词 打 \color{#D2691E}打 上 \color{#000000}上 相 应 \color{#D2691E}相应 的 \color{#EE82EE}的 标 签 \color{#6495ED}标签 是 \color{#D2691E}是 大 多 数 \color{#000000}大多数 NLP 底 层 \color{#6495ED}底层 技 术 \color{#6495ED}技术 的 \color{#EE82EE}的 核 心 \color{#6495ED}核心 如 \color{#D2691E}如 分 词 \color{#6495ED}分词 词 性 \color{#6495ED}词性 标 注 \color{#D2691E}标注 关 键 词 \color{#6495ED}关键词 抽 取 \color{#D2691E}抽取 命 名 \color{#D2691E}命名 实 体 \color{#6495ED}实体 识 别 \color{#D2691E}识别 语 义 \color{#6495ED}语义 角 色 \color{#6495ED}角色 标 注 \color{#D2691E}标注 等 等 \color{#EE82EE}等等 曾 \color{#EE82EE}曾 是 \color{#D2691E}是 HMM、CRF 的 \color{#EE82EE}的 天 下 \color{#6495ED}天下 近 年 来 \color{#EE82EE}近年来 逐 步 \color{#EE82EE}逐步 稳 定 \color{#32CD32}稳定 为 \color{#4682B4}为 BiLSTM-CRF 体 系 \color{#6495ED}体系

文 本 \color{#6495ED}文本 摘 要 \color{#6495ED}摘要

从 \color{#4682B4}从 给 \color{#4682B4}给 定 \color{#D2691E}定 的 \color{#EE82EE}的 文 本 \color{#6495ED}文本 中 \color{#000000}中 聚 焦 \color{#D2691E}聚焦 到 \color{#D2691E}到 最 \color{#EE82EE}最 核 心 \color{#6495ED}核心 的 \color{#EE82EE}的 部 分 \color{#6495ED}部分 自 动 \color{#EE82EE}自动 生 成 \color{#D2691E}生成 摘 要 \color{#6495ED}摘要

问 答 \color{#D2691E}问答 系 统 \color{#6495ED}系统

接 受 \color{#D2691E}接受 用 户 \color{#6495ED}用户 以 \color{#4682B4}以 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 表 达 \color{#D2691E}表达 的 \color{#EE82EE}的 问 题 \color{#6495ED}问题 并 \color{#EE82EE}并 返 回 \color{#D2691E}返回 以 \color{#4682B4}以 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 表 达 \color{#D2691E}表达 的 \color{#EE82EE}的 回 答 \color{#D2691E}回答 常 见 \color{#32CD32}常见 形 式 \color{#6495ED}形式 为 \color{#4682B4}为 检 索 \color{#D2691E}检索 式 \color{#ADFF2F}式 抽 取 \color{#D2691E}抽取 式 \color{#ADFF2F}式 和 \color{#EE82EE}和 生 成 \color{#D2691E}生成 式 \color{#ADFF2F}式 三 \color{#000000}三 种 \color{#000000}种 近 年 来 \color{#EE82EE}近年来 交 互 式 \color{#EE82EE}交互式 也 \color{#EE82EE}也 逐 渐 \color{#EE82EE}逐渐 受 到 \color{#D2691E}受到 关 注 \color{#D2691E}关注 典 型 \color{#6495ED}典型 应 用 \color{#D2691E}应用 有 \color{#D2691E}有 智 能 \color{#6495ED}智能 客 服 \color{#6495ED}客服

对 话 \color{#D2691E}对话 系 统 \color{#6495ED}系统

与 \color{#EE82EE}与 问 答 \color{#D2691E}问答 系 统 \color{#6495ED}系统 有 \color{#D2691E}有 许 多 \color{#000000}许多 相 通 \color{#D2691E}相通 之 \color{#EE82EE}之 处 \color{#6495ED}处 区 别 \color{#6495ED}区别 在 于 \color{#D2691E}在于 问 答 \color{#D2691E}问答 系 统 \color{#6495ED}系统 旨 在 \color{#D2691E}旨在 直 接 \color{#32CD32}直接 给 \color{#4682B4}给 出 \color{#D2691E}出 精 准 \color{#6495ED}精准 回 答 \color{#D2691E}回答 回 答 \color{#D2691E}回答 是 否 \color{#D2691E}是否 口 语 \color{#6495ED}口语 化 \color{#D2691E}化 不 \color{#EE82EE}不 在 \color{#4682B4}在 主 要 \color{#EE82EE}主要 考 虑 \color{#D2691E}考虑 范 围 内 \color{#6495ED}范围内 而 \color{#EE82EE}而 对 话 \color{#D2691E}对话 系 统 \color{#6495ED}系统 旨 在 \color{#D2691E}旨在 以 \color{#4682B4}以 口 语 \color{#6495ED}口语 化 \color{#D2691E}化 的 \color{#EE82EE}的 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 对 话 \color{#D2691E}对话 的 \color{#EE82EE}的 方 式 \color{#6495ED}方式 解 决 \color{#D2691E}解决 用 户 \color{#6495ED}用户 问 题 \color{#6495ED}问题 对 话 \color{#D2691E}对话 系 统 \color{#6495ED}系统 目 前 \color{#9370DB}目前 分 \color{#000000}分 闲 聊 \color{#D2691E}闲聊 式 \color{#ADFF2F}式 和 \color{#EE82EE}和 任 务 \color{#6495ED}任务 导 向 \color{#6495ED}导向 型 \color{#ADFF2F}型 前 者 \color{#2F4F4F}前者 主 要 \color{#EE82EE}主要 应 用 \color{#D2691E}应用 有 \color{#D2691E}有 siri、 小 冰 \color{#4B0082}小冰 等 \color{#EE82EE}等 后 者 \color{#2F4F4F}后者 主 要 \color{#EE82EE}主要 应 用 \color{#D2691E}应用 有 \color{#D2691E}有 车 载 \color{#EE82EE}车载 聊 天 \color{#D2691E}聊天 机 器 人 \color{#6495ED}机器人 。( 对 话 \color{#D2691E}对话 系 统 \color{#6495ED}系统 和 \color{#EE82EE}和 问 答 \color{#D2691E}问答 系 统 \color{#6495ED}系统 应 该 \color{#D2691E}应该 是 \color{#D2691E}是 最 \color{#EE82EE}最 接 近 \color{#D2691E}接近 NLP 终 极 \color{#6495ED}终极 目 标 \color{#6495ED}目标 的 \color{#EE82EE}的 领 域 \color{#6495ED}领域

知 识 \color{#6495ED}知识 图 谱 \color{#6495ED}图谱

从 \color{#4682B4}从 规 则 \color{#6495ED}规则 或 \color{#EE82EE}或 不 规 则 \color{#32CD32}不规则 的 \color{#EE82EE}的 文 本 \color{#6495ED}文本 中 \color{#000000}中 提 取 \color{#D2691E}提取 结 构 \color{#6495ED}结构 化 \color{#D2691E}化 的 \color{#EE82EE}的 信 息 \color{#6495ED}信息 并 \color{#EE82EE}并 以 \color{#4682B4}以 可 视 化 \color{#000000}可视化 的 \color{#EE82EE}的 形 式 \color{#6495ED}形式 将 \color{#EE82EE}将 实 体 \color{#6495ED}实体 间 \color{#000000}间 以 \color{#4682B4}以 何 种 \color{#2F4F4F}何种 方 式 \color{#6495ED}方式 联 系 \color{#D2691E}联系 表 现 \color{#D2691E}表现 出 来 \color{#D2691E}出来 图 谱 \color{#6495ED}图谱 本 身 \color{#2F4F4F}本身 不 \color{#EE82EE}不 具 有 \color{#D2691E}具有 应 用 \color{#D2691E}应用 意 义 \color{#6495ED}意义 建 立 \color{#D2691E}建立 在 \color{#4682B4}在 图 谱 \color{#6495ED}图谱 基 础 上 \color{#6495ED}基础上 的 \color{#EE82EE}的 知 识 \color{#6495ED}知识 检 索 \color{#D2691E}检索 知 识 \color{#6495ED}知识 推 理 \color{#D2691E}推理 知 识 \color{#6495ED}知识 发 现 \color{#D2691E}发现 才 \color{#EE82EE}才 是 \color{#D2691E}是 知 识 \color{#6495ED}知识 图 谱 \color{#6495ED}图谱 的 \color{#EE82EE}的 研 究 \color{#D2691E}研究 方 向 \color{#6495ED}方向

文 本 \color{#6495ED}文本 聚 \color{#D2691E}聚 类 \color{#000000}类

一 个 \color{#000000}一个 古 老 \color{#32CD32}古老 的 \color{#EE82EE}的 领 域 \color{#6495ED}领域 但 \color{#EE82EE}但 现 在 \color{#9370DB}现在 仍 \color{#EE82EE}仍 未 \color{#EE82EE}未 研 究 \color{#D2691E}研究 透 彻 \color{#32CD32}透彻 从 \color{#4682B4}从 大 规 模 \color{#EE82EE}大规模 文 本 \color{#6495ED}文本 数 据 \color{#6495ED}数据 中 \color{#000000}中 自 动 \color{#EE82EE}自动 发 现 \color{#D2691E}发现 规 律 \color{#6495ED}规律 核 心 \color{#6495ED}核心 在 于 \color{#D2691E}在于 如 何 \color{#2F4F4F}如何 表 示 \color{#D2691E}表示 文 本 \color{#6495ED}文本 以 及 \color{#EE82EE}以及 如 何 \color{#2F4F4F}如何 度 量 \color{#D2691E}度量 文 本 \color{#6495ED}文本 之 间 \color{#000000}之间 的 \color{#EE82EE}的 距 离 \color{#6495ED}距离

基 本 \color{#32CD32}基本 技 术 \color{#6495ED}技术

分 词 \color{#6495ED}分词 基 本 \color{#32CD32}基本 算 是 \color{#D2691E}算是 所 有 \color{#EE82EE}所有 NLP 任 务 \color{#6495ED}任务 中 \color{#000000}中 最 底 层 \color{#6495ED}最底层 的 \color{#EE82EE}的 技 术 \color{#6495ED}技术 不 论 \color{#EE82EE}不论 解 决 \color{#D2691E}解决 什 么 \color{#2F4F4F}什么 问 题 \color{#6495ED}问题 分 词 \color{#6495ED}分词 永 远 \color{#EE82EE}永远 是 \color{#D2691E}是 第 一 \color{#000000}第一 步 \color{#000000}步

词 性 \color{#6495ED}词性 标 注 \color{#D2691E}标注 判 断 \color{#D2691E}判断 文 本 \color{#6495ED}文本 中 的 \color{#D2691E}中的 词 \color{#6495ED}词 的 \color{#EE82EE}的 词 性 \color{#6495ED}词性 名 词 \color{#6495ED}名词 动 词 \color{#6495ED}动词 形 容 词 \color{#6495ED}形容词 等 等 \color{#EE82EE}等等 ), 一 般 \color{#32CD32}一般 作 为 \color{#4682B4}作为 额 外 \color{#EE82EE}额外 特 征 \color{#6495ED}特征 使 用 \color{#D2691E}使用 使

句 法 \color{#6495ED}句法 分 析 \color{#D2691E}分析 分 为 \color{#D2691E}分为 句 法 \color{#6495ED}句法 结 构 \color{#6495ED}结构 分 析 \color{#D2691E}分析 和 \color{#EE82EE}和 依 存 \color{#D2691E}依存 句 法 \color{#6495ED}句法 分 析 \color{#D2691E}分析 两 \color{#000000}两 种 \color{#000000}种

词 干 \color{#6495ED}词干 提 取 \color{#D2691E}提取 从 \color{#4682B4}从 单 词 \color{#6495ED}单词 各 种 \color{#2F4F4F}各种 前 缀 \color{#6495ED}前缀 后 缀 \color{#6495ED}后缀 变 化 \color{#D2691E}变化 时 态 \color{#6495ED}时态 变 化 \color{#D2691E}变化 等 \color{#EE82EE}等 变 化 \color{#D2691E}变化 中 \color{#000000}中 还 原 \color{#D2691E}还原 词 干 \color{#6495ED}词干 常 见 于 \color{#D2691E}常见于 英 文 \color{#6495ED}英文 文 本 \color{#6495ED}文本 处 理 \color{#D2691E}处理

命 名 \color{#D2691E}命名 实 体 \color{#6495ED}实体 识 别 \color{#D2691E}识别 识 别 \color{#D2691E}识别 并 \color{#EE82EE}并 抽 取 \color{#D2691E}抽取 文 本 \color{#6495ED}文本 中 的 \color{#D2691E}中的 实 体 \color{#6495ED}实体 一 般 \color{#32CD32}一般 采 用 \color{#D2691E}采用 BIO 形 式 \color{#6495ED}形式

指 \color{#D2691E}指 代 \color{#000000}代 消 \color{#D2691E}消 歧 \color{#32CD32}歧 文 本 \color{#6495ED}文本 中 的 \color{#D2691E}中的 代 词 \color{#6495ED}代词 如 \color{#D2691E}如 他 \color{#2F4F4F}他 ”“ 这 个 \color{#2F4F4F}这个 等 \color{#EE82EE}等 还 原 \color{#D2691E}还原 成 \color{#D2691E}成 其 \color{#2F4F4F}其 所 \color{#EE82EE}所 指 \color{#D2691E}指 实 体 \color{#6495ED}实体

关 键 词 \color{#6495ED}关键词 抽 取 \color{#D2691E}抽取 提 取 \color{#D2691E}提取 文 本 \color{#6495ED}文本 中 的 \color{#D2691E}中的 关 键 词 \color{#6495ED}关键词 用 以 \color{#EE82EE}用以 表 征 \color{#6495ED}表征 文 本 \color{#6495ED}文本 或 \color{#EE82EE}或 下 游 \color{#000000}下游 应 用 \color{#D2691E}应用

词 \color{#6495ED}词 向 量 \color{#6495ED}向量 与 \color{#EE82EE}与 词 \color{#6495ED}词 嵌 入 \color{#D2691E}嵌入 把 \color{#4682B4}把 单 词 \color{#6495ED}单词 映 射 \color{#D2691E}映射 到 \color{#D2691E}到 低 \color{#32CD32}低 维 \color{#EE82EE}维 空 间 \color{#6495ED}空间 中 \color{#000000}中 并 \color{#EE82EE}并 保 持 \color{#D2691E}保持 单 词 \color{#6495ED}单词 间 \color{#000000}间 相 互 \color{#EE82EE}相互 关 系 \color{#6495ED}关系 不 变 \color{#6495ED}不变 是 \color{#D2691E}是 NLP 深 度 \color{#6495ED}深度 学 习 \color{#D2691E}学习 技 术 \color{#6495ED}技术 的 \color{#EE82EE}的 基 础 \color{#6495ED}基础

文 本 \color{#6495ED}文本 生 成 \color{#D2691E}生成 给 定 \color{#D2691E}给定 特 定 \color{#EE82EE}特定 的 \color{#EE82EE}的 文 本 \color{#6495ED}文本 输 入 \color{#D2691E}输入 生 成 \color{#D2691E}生成 所 \color{#EE82EE}所 需 要 \color{#D2691E}需要 的 \color{#EE82EE}的 文 本 \color{#6495ED}文本 主 要 \color{#EE82EE}主要 应 用 于 \color{#D2691E}应用于 文 本 \color{#6495ED}文本 摘 要 \color{#6495ED}摘要 对 话 \color{#D2691E}对话 系 统 \color{#6495ED}系统 机 器 翻 译 \color{#FA8072}机器翻译 问 答 \color{#D2691E}问答 系 统 \color{#6495ED}系统 等 \color{#EE82EE}等 领 域 \color{#6495ED}领域

常 用 \color{#32CD32}常用 算 法 \color{#6495ED}算法

tfidf、BM 25 \color{#000000}25 25、TextRank、HMM、CRF、LSI、 主 题 \color{#6495ED}主题 模 型 \color{#6495ED}模型 、word2vec、GloVe、LSTM/GRU、CNN、seq2seq、Attention……

终 极 \color{#6495ED}终极 目 标 \color{#6495ED}目标

从 \color{#4682B4}从 计 算 机 \color{#6495ED}计算机 诞 生 \color{#D2691E}诞生 ,NLP 这 个 \color{#2F4F4F}这个 概 念 \color{#6495ED}概念 被 \color{#4682B4}被 提 出 \color{#D2691E}提出 伊 始 \color{#D2691E}伊始 人 们 \color{#6495ED}人们 便 \color{#EE82EE}便 便 希 望 \color{#D2691E}希望 计 算 机 \color{#6495ED}计算机 能 够 \color{#D2691E}能够 理 解 \color{#D2691E}理解 人 类 \color{#6495ED}人类 的 \color{#EE82EE}的 语 言 \color{#6495ED}语言 于 是 便 \color{#4B0082}于是便 便 有 \color{#D2691E}有 了 \color{#EE82EE}了 图 灵 \color{#000000}图灵 测 试 \color{#D2691E}测试

尽 管 \color{#EE82EE}尽管 google I/O 大 会 \color{#6495ED}大会 上 \color{#000000}上 的 \color{#EE82EE}的 Google
Assistant 宣 称 \color{#D2691E}宣称 已 经 \color{#EE82EE}已经 通 过 \color{#4682B4}通过 了 \color{#EE82EE}了 图 灵 \color{#000000}图灵 测 试 \color{#D2691E}测试 但 \color{#EE82EE}但 离 \color{#D2691E}离 真 正 \color{#EE82EE}真正 理 解 \color{#D2691E}理解 人 类 \color{#6495ED}人类 语 言 \color{#6495ED}语言 仍 \color{#EE82EE}仍 有 \color{#D2691E}有 很 长 \color{#EE82EE}很长 的 \color{#EE82EE}的 距 离 \color{#6495ED}距离 让 \color{#D2691E}让 计 算 机 \color{#6495ED}计算机 能 够 \color{#D2691E}能够 确 切 \color{#32CD32}确切 理 解 \color{#D2691E}理解 人 类 \color{#6495ED}人类 的 \color{#EE82EE}的 语 言 \color{#6495ED}语言 并 \color{#EE82EE}并 自 然 地 \color{#6495ED}自然地 与 \color{#EE82EE}与 人 \color{#6495ED}人 进 行 \color{#D2691E}进行 交 互 \color{#EE82EE}交互 是 \color{#D2691E}是 NLP 的 \color{#EE82EE}的 最 终 \color{#EE82EE}最终 目 标 \color{#6495ED}目标 也 \color{#EE82EE}也 是 \color{#D2691E}是 大 多 数 \color{#000000}大多数 NLPer 的 \color{#EE82EE}的 最 高 \color{#32CD32}最高 信 仰 \color{#D2691E}信仰 为 此 \color{#EE82EE}为此 各 路 \color{#2F4F4F}各路 大 佬 \color{#6495ED}大佬 挥 舞 \color{#D2691E}挥舞 手 中 \color{#2F4F4F}手中 的 \color{#EE82EE}的 代 码 \color{#6495ED}代码 不 断 \color{#EE82EE}不断 挖 坑 \color{#D2691E}挖坑 填 坑 \color{#6495ED}填坑 攻 克 \color{#D2691E}攻克 一 个 \color{#000000}一个 又 \color{#EE82EE}又 一 个 \color{#000000}一个 难 题 \color{#6495ED}难题 推 动 \color{#D2691E}推动 NLP 一 直 \color{#EE82EE}一直 往 \color{#4682B4}往 前 \color{#000000}前 发 展 \color{#D2691E}发展

研 究 \color{#D2691E}研究 难 点 \color{#6495ED}难点

仍 \color{#EE82EE}仍 有 \color{#D2691E}有 很 多 \color{#000000}很多 制 约 \color{#D2691E}制约 NLP 发 展 \color{#D2691E}发展 的 \color{#EE82EE}的 因 素 \color{#6495ED}因素 这 些 \color{#2F4F4F}这些 因 素 \color{#6495ED}因素 构 成 \color{#D2691E}构成 了 \color{#EE82EE}了 NLP 的 \color{#EE82EE}的 难 点 \color{#6495ED}难点 而 且 \color{#EE82EE}而且 要 命 \color{#D2691E}要命 的 \color{#EE82EE}的 是 \color{#D2691E}是 大 多 数 \color{#000000}大多数 是 \color{#D2691E}是 基 础 \color{#6495ED}基础 技 术 \color{#6495ED}技术 的 \color{#EE82EE}的 难 点 \color{#6495ED}难点

中 文 \color{#6495ED}中文 分 词 \color{#6495ED}分词 这 \color{#2F4F4F}这 条 \color{#000000}条 是 \color{#D2691E}是 专 门 \color{#EE82EE}专门 针 对 \color{#4682B4}针对 中 文 \color{#6495ED}中文 说 \color{#D2691E}说 的 \color{#EE82EE}的 众 所 周 知 \color{#D2691E}众所周知 汉 语 \color{#000000}汉语 博 大 精 深 \color{#D2691E}博大精深 老 外 \color{#6495ED}老外 学 汉 语 \color{#6495ED}学汉语 尚 且 \color{#EE82EE}尚且 虐 心 \color{#6495ED}虐心 更 \color{#EE82EE}更 别 提 \color{#D2691E}别提 计 算 机 \color{#6495ED}计算机 了 \color{#EE82EE}了 同 \color{#4682B4}同 一 个 \color{#000000}一个 任 务 \color{#6495ED}任务 同 \color{#4682B4}同 一 个 \color{#000000}一个 模 型 \color{#6495ED}模型 在 \color{#4682B4}在 英 文 \color{#6495ED}英文 语 料 \color{#6495ED}语料 的 \color{#EE82EE}的 表 现 \color{#D2691E}表现 上 \color{#000000}上 一 般 \color{#32CD32}一般 要 \color{#D2691E}要 比 \color{#4682B4}比 中 文 \color{#6495ED}中文 语 料 \color{#6495ED}语料 好 \color{#32CD32}好 无 论 是 \color{#EE82EE}无论是 基 于 \color{#4682B4}基于 统 计 \color{#D2691E}统计 的 \color{#EE82EE}的 还 是 \color{#EE82EE}还是 基 于 \color{#4682B4}基于 深 度 \color{#6495ED}深度 学 习 \color{#D2691E}学习 的 \color{#EE82EE}的 NLP 方 法 \color{#6495ED}方法 分 词 \color{#6495ED}分词 都 \color{#EE82EE}都 是 \color{#D2691E}是 第 一 \color{#000000}第一 步 \color{#000000}步 分 词 \color{#6495ED}分词 表 现 \color{#D2691E}表现 不 好 \color{#32CD32}不好 的 话 \color{#EE82EE}的话 后 面 \color{#000000}后面 的 \color{#EE82EE}的 模 型 \color{#6495ED}模型 最 多 \color{#32CD32}最多 也 \color{#EE82EE}也 只 能 \color{#D2691E}只能 尽 力 \color{#EE82EE}尽力 纠 偏 \color{#D2691E}纠偏

词 义 \color{#6495ED}词义 消 \color{#D2691E}消 歧 \color{#32CD32}歧 很 多 \color{#000000}很多 单 词 \color{#6495ED}单词 不 \color{#EE82EE}不 只 有 \color{#EE82EE}只有 一 个 \color{#000000}一个 意 思 \color{#6495ED}意思 但 \color{#EE82EE}但 这 个 \color{#2F4F4F}这个 在 \color{#4682B4}在 今 年 \color{#9370DB}今年 BERT 推 出 \color{#D2691E}推出 后 \color{#000000}后 应 该 \color{#D2691E}应该 不 成 \color{#D2691E}不成 问 题 \color{#6495ED}问题 可 以 \color{#D2691E}可以 通 过 \color{#4682B4}通过 上 下 文 \color{#6495ED}上下文 学 \color{#D2691E}学 到 \color{#D2691E}到 不 同 \color{#32CD32}不同 的 \color{#EE82EE}的 意 思 \color{#6495ED}意思 另 \color{#2F4F4F}另 一 个 \color{#000000}一个 较 难 \color{#6495ED}较难 的 \color{#EE82EE}的 是 \color{#D2691E}是 指 \color{#D2691E}指 代 \color{#000000}代 消 \color{#D2691E}消 歧 \color{#32CD32}歧 即 \color{#D2691E}即 句 子 \color{#6495ED}句子 中 的 \color{#D2691E}中的 指 \color{#D2691E}指 代 词 \color{#6495ED}代词 还 原 \color{#D2691E}还原 如 \color{#D2691E}如 小 明 \color{#6495ED}小明 受 到 \color{#D2691E}受到 了 \color{#EE82EE}了 老 师 \color{#4B0082}老师 的 \color{#EE82EE}的 表 扬 \color{#D2691E}表扬 他 \color{#2F4F4F}他 很 \color{#EE82EE}很 高 兴 \color{#32CD32}高兴 ”, 这 个 \color{#2F4F4F}这个 他 \color{#2F4F4F}他 是 \color{#D2691E}是 指 \color{#D2691E}指 小 明 \color{#6495ED}小明 还 是 \color{#EE82EE}还是 指 \color{#D2691E}指 老 师 \color{#4B0082}老师 ”。

二 义 性 \color{#6495ED}二义性 有 些 \color{#2F4F4F}有些 句 子 \color{#6495ED}句子 往 往 \color{#EE82EE}往往 有 \color{#D2691E}有 多 种 \color{#000000}多种 理 解 \color{#D2691E}理解 方 式 \color{#6495ED}方式 其 中 \color{#2F4F4F}其中 以 \color{#4682B4}以 两 \color{#000000}两 种 \color{#000000}种 理 解 \color{#D2691E}理解 方 式 \color{#6495ED}方式 的 \color{#EE82EE}的 最 为 \color{#EE82EE}最为 常 见 \color{#32CD32}常见 称 \color{#D2691E}称 二 义 性 \color{#6495ED}二义性

OOV 问 题 \color{#6495ED}问题 随 着 \color{#4682B4}随着 词 \color{#6495ED}词 嵌 入 \color{#D2691E}嵌入 技 术 \color{#6495ED}技术 大 \color{#32CD32}大 热 \color{#32CD32}热 后 \color{#000000}后 使 用 \color{#D2691E}使用 使 预 \color{#EE82EE}预 训 练 \color{#D2691E}训练 的 \color{#EE82EE}的 词 \color{#6495ED}词 向 量 \color{#6495ED}向量 似 乎 \color{#EE82EE}似乎 成 为 \color{#D2691E}成为 了 \color{#EE82EE}了 一 个 \color{#000000}一个 主 流 \color{#6495ED}主流 但 \color{#EE82EE}但 有 \color{#D2691E}有 个 \color{#000000}个 问 题 \color{#6495ED}问题 就 是 \color{#D2691E}就是 数 据 \color{#6495ED}数据 中 的 \color{#D2691E}中的 词 \color{#6495ED}词 很 \color{#EE82EE}很 可 能 \color{#D2691E}可能 不 \color{#EE82EE}不 在 \color{#4682B4}在 预 \color{#EE82EE}预 训 \color{#D2691E}训 练 \color{#D2691E}练 好 \color{#32CD32}好 的 \color{#EE82EE}的 词 表 \color{#6495ED}词表 里 面 \color{#000000}里面 此 \color{#2F4F4F}此 即 \color{#D2691E}即 OOV(out
of
vocabulary)。 主 流 \color{#6495ED}主流 方 法 \color{#6495ED}方法 是 \color{#D2691E}是 要 么 \color{#EE82EE}要么 当 做 \color{#D2691E}当做 UNK 处 理 \color{#D2691E}处理 要 么 \color{#EE82EE}要么 生 成 \color{#D2691E}生成 随 机 \color{#EE82EE}随机 向 量 \color{#6495ED}向量 或 \color{#EE82EE}或 零 \color{#000000}零 向 量 \color{#6495ED}向量 处 理 \color{#D2691E}处理 当 然 \color{#EE82EE}当然 都 \color{#EE82EE}都 存 在 \color{#D2691E}存在 一 定 \color{#EE82EE}一定 的 \color{#EE82EE}的 弊 端 \color{#6495ED}弊端

文 本 \color{#6495ED}文本 相 似 \color{#32CD32}相似 度 \color{#000000}度 计 算 \color{#D2691E}计算 是 的 \color{#FA8072}是的 你 \color{#2F4F4F}你 没 有 \color{#D2691E}没有 看 \color{#D2691E}看 错 \color{#D2691E}错 文 本 \color{#6495ED}文本 相 似 \color{#32CD32}相似 度 \color{#000000}度 计 算 \color{#D2691E}计算 依 旧 \color{#EE82EE}依旧 算 是 \color{#D2691E}算是 难 点 \color{#6495ED}难点 之 一 \color{#2F4F4F}之一 不 过 \color{#EE82EE}不过 与 其 说 \color{#EE82EE}与其说 难 点 \color{#6495ED}难点 主 要 \color{#EE82EE}主要 是 \color{#D2691E}是 至 今 \color{#EE82EE}至今 没 有 \color{#D2691E}没有 一 \color{#000000}一 种 \color{#000000}种 方 法 \color{#6495ED}方法 能 够 \color{#D2691E}能够 从 \color{#4682B4}从 理 论 \color{#6495ED}理论 证 明 \color{#D2691E}证明 主 流 \color{#6495ED}主流 认 可 \color{#D2691E}认可 的 \color{#EE82EE}的 是 \color{#D2691E}是 用 \color{#4682B4}用 余 弦 \color{#6495ED}余弦 相 似 \color{#32CD32}相似 度 \color{#000000}度 但 \color{#EE82EE}但 看 \color{#D2691E}看 论 文 \color{#6495ED}论文 就 \color{#EE82EE}就 会 \color{#D2691E}会 发 现 \color{#D2691E}发现 除 了 \color{#4682B4}除了 余 弦 \color{#6495ED}余弦 相 似 \color{#32CD32}相似 度 \color{#000000}度 外 \color{#000000}外 有 人 \color{#2F4F4F}有人 用 \color{#4682B4}用 欧 式 \color{#EE82EE}欧式 距 离 \color{#6495ED}距离 有 人 \color{#2F4F4F}有人 用 \color{#4682B4}用 曼 哈 顿 \color{#4169E1}曼哈顿 距 离 \color{#6495ED}距离 有 人 \color{#2F4F4F}有人 直 接 \color{#32CD32}直接 向 量 \color{#6495ED}向量 內 \color{#6495ED}內 积 \color{#D2691E}积 且 \color{#EE82EE}且 效 果 \color{#6495ED}效果 还 \color{#EE82EE}还 都 \color{#EE82EE}都 不 错 \color{#32CD32}不错

文 本 \color{#6495ED}文本 生 成 \color{#D2691E}生成 的 \color{#EE82EE}的 评 价 \color{#D2691E}评价 指 标 \color{#6495ED}指标 文 本 \color{#6495ED}文本 生 成 \color{#D2691E}生成 的 \color{#EE82EE}的 评 价 \color{#D2691E}评价 指 标 \color{#6495ED}指标 多 \color{#32CD32}多 用 \color{#4682B4}用 BLEU 或 者 \color{#EE82EE}或者 ROUGE, 但 \color{#EE82EE}但 尴 尬 \color{#32CD32}尴尬 的 \color{#EE82EE}的 是 \color{#D2691E}是 这 \color{#2F4F4F}这 两 \color{#000000}两 个 \color{#000000}个 指 标 \color{#6495ED}指标 都 \color{#EE82EE}都 是 \color{#D2691E}是 基 于 \color{#4682B4}基于 n-gram 的 \color{#EE82EE}的 也 就 是 说 \color{#FA8072}也就是说 会 \color{#D2691E}会 判 断 \color{#D2691E}判断 生 成 \color{#D2691E}生成 的 \color{#EE82EE}的 句 子 \color{#6495ED}句子 与 \color{#EE82EE}与 标 签 \color{#6495ED}标签 句 子 \color{#6495ED}句子 词 \color{#6495ED}词 粒 度 \color{#6495ED}粒度 上 \color{#000000}上 的 \color{#EE82EE}的 相 似 \color{#32CD32}相似 度 \color{#000000}度 然 而 \color{#EE82EE}然而 由 于 \color{#4682B4}由于 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 的 \color{#EE82EE}的 特 性 \color{#6495ED}特性 同 \color{#4682B4}同 一 个 \color{#000000}一个 意 思 \color{#6495ED}意思 可 以 \color{#D2691E}可以 有 \color{#D2691E}有 多 \color{#32CD32}多 种 \color{#000000}种 不 同 \color{#32CD32}不同 的 \color{#EE82EE}的 表 达 \color{#D2691E}表达 ), 会 \color{#D2691E}会 出 现 \color{#D2691E}出现 生 成 \color{#D2691E}生成 的 \color{#EE82EE}的 句 子 \color{#6495ED}句子 尽 管 \color{#EE82EE}尽管 被 \color{#4682B4}被 人 为 \color{#EE82EE}人为 判 定 \color{#D2691E}判定 有 \color{#D2691E}有 意 义 \color{#6495ED}意义 在 \color{#4682B4}在 BLEU 或 \color{#EE82EE}或 ROUGE 上 \color{#000000}上 仍 \color{#EE82EE}仍 可 能 会 \color{#6495ED}可能会 得 到 \color{#D2691E}得到 很 低 \color{#EE82EE}很低 的 \color{#EE82EE}的 分 数 \color{#6495ED}分数 的 \color{#EE82EE}的 情 况 \color{#6495ED}情况 这 \color{#2F4F4F}这 两 \color{#000000}两 个 \color{#000000}个 指 标 \color{#6495ED}指标 用 \color{#4682B4}用 在 \color{#4682B4}在 机 \color{#6495ED}机 翻 \color{#D2691E}翻 领 域 \color{#6495ED}领域 倒 是 \color{#EE82EE}倒是 没 \color{#EE82EE}没 多 \color{#32CD32}多 大 \color{#32CD32}大 问 题 \color{#6495ED}问题 本 身 \color{#2F4F4F}本身 就 是 \color{#D2691E}就是 机 \color{#6495ED}机 翻 \color{#D2691E}翻 的 \color{#EE82EE}的 评 价 \color{#D2691E}评价 指 标 \color{#6495ED}指标 ), 但 \color{#EE82EE}但 用 \color{#4682B4}用 在 \color{#4682B4}在 文 本 \color{#6495ED}文本 摘 要 \color{#6495ED}摘要 和 \color{#EE82EE}和 对 话 \color{#D2691E}对话 生 成 \color{#D2691E}生成 就 \color{#EE82EE}就 明 显 \color{#32CD32}明显 不 \color{#EE82EE}不 合 适 \color{#32CD32}合适 了 \color{#EE82EE}了

社 会 \color{#6495ED}社会 影 响 \color{#D2691E}影响

由 于 \color{#4682B4}由于 自 然 \color{#6495ED}自然 语 言 \color{#6495ED}语言 作 为 \color{#4682B4}作为 人 类 \color{#6495ED}人类 社 会 \color{#6495ED}社会 信 息 \color{#6495ED}信息 的 \color{#EE82EE}的 载 体 \color{#6495ED}载体 使 得 \color{#D2691E}使得 使NLP 不 \color{#EE82EE}不 只 是 \color{#EE82EE}只是 计 算 机 科 学 \color{#000000}计算机科学 的 \color{#EE82EE}的 专 属 \color{#EE82EE}专属 在 \color{#4682B4}在 其 他 \color{#2F4F4F}其他 领 域 \color{#6495ED}领域 同 样 \color{#EE82EE}同样 存 在 \color{#D2691E}存在 着 \color{#EE82EE}着 海 量 \color{#6495ED}海量 的 \color{#EE82EE}的 文 本 \color{#6495ED}文本 ,NLP 也 \color{#EE82EE}也 成 为 \color{#D2691E}成为 了 \color{#EE82EE}了 重 要 \color{#32CD32}重要 支 持 \color{#D2691E}支持 技 术 \color{#6495ED}技术

在 \color{#4682B4}在 社 会 科 学 \color{#6495ED}社会科学 领 域 \color{#6495ED}领域 关 系 \color{#6495ED}关系 网 络 \color{#6495ED}网络 挖 掘 \color{#D2691E}挖掘 社 交 \color{#6495ED}社交 媒 体 \color{#6495ED}媒体 计 算 \color{#D2691E}计算 人 文 \color{#6495ED}人文 计 算 \color{#D2691E}计算 等 \color{#EE82EE}等 国 内 \color{#2F4F4F}国内 一 些 \color{#000000}一些 著 名 \color{#32CD32}著名 的 \color{#EE82EE}的 大 学 \color{#6495ED}大学 实 验 室 \color{#6495ED}实验室 如 \color{#D2691E}如 清 华 \color{#6495ED}清华 的 \color{#EE82EE}的 自 然 语 言 处 理 \color{#6495ED}自然语言处理 与 \color{#EE82EE}与 社 会 \color{#6495ED}社会 人 文 \color{#6495ED}人文 计 算 \color{#D2691E}计算 实 验 室 \color{#6495ED}实验室 哈 工 大 \color{#4169E1}哈工大 的 \color{#EE82EE}的 社 会 \color{#6495ED}社会 计 算 \color{#D2691E}计算 与 \color{#EE82EE}与 信 息 检 索 \color{#000000}信息检索 研 究 \color{#D2691E}研究 中 心 \color{#6495ED}中心 均 \color{#EE82EE}均 冠 有 \color{#4B0082}冠有 社 会 \color{#6495ED}社会 计 算 \color{#D2691E}计算 的 \color{#EE82EE}的 关 键 词 \color{#6495ED}关键词

在 \color{#4682B4}在 金 融 \color{#6495ED}金融 领 域 \color{#6495ED}领域 单 \color{#EE82EE}单 A 股 \color{#000000}股 就 \color{#EE82EE}就 有 \color{#D2691E}有 300 \color{#000000}300 300 多 \color{#32CD32}多 家 \color{#000000}家 上 市 公 司 \color{#6495ED}上市公司 这 些 \color{#2F4F4F}这些 公 司 \color{#6495ED}公司 每 年 \color{#9370DB}每年 都 \color{#EE82EE}都 有 \color{#D2691E}有 年 报 \color{#6495ED}年报 半 年 报 \color{#6495ED}半年报 一 \color{#000000}一 季 报 \color{#6495ED}季报 三 \color{#000000}三 季 报 \color{#6495ED}季报 等 等 \color{#EE82EE}等等 加 上 \color{#D2691E}加上 瞬 息 万 变 \color{#D2691E}瞬息万变 的 \color{#EE82EE}的 金 融 \color{#6495ED}金融 新 闻 \color{#6495ED}新闻 金 融 界 \color{#6495ED}金融界 的 \color{#EE82EE}的 文 本 \color{#6495ED}文本 数 量 \color{#6495ED}数量 是 \color{#D2691E}是 海 量 \color{#6495ED}海量 的 \color{#EE82EE}的 金 融 \color{#6495ED}金融 领 域 \color{#6495ED}领域 的 \color{#EE82EE}的 NLP 公 司 \color{#6495ED}公司 举 例 \color{#D2691E}举例 李 纪 \color{#4B0082}李纪 为 \color{#4682B4}为 大 佬 \color{#6495ED}大佬 的 \color{#EE82EE}的 香 \color{#32CD32}香 侬 \color{#6495ED}侬 科 技 \color{#6495ED}科技

在 \color{#4682B4}在 法 律 \color{#6495ED}法律 领 域 \color{#6495ED}领域 中 国 \color{#4169E1}中国 裁 判 \color{#4B0082}裁判 文 书 \color{#4B0082}文书 网 上 \color{#2F4F4F}网上 就 \color{#EE82EE}就 有 \color{#D2691E}有 几 \color{#EE82EE}几 千 万 \color{#000000}千万 公 开 \color{#32CD32}公开 的 \color{#EE82EE}的 裁 判 \color{#4B0082}裁判 文 书 \color{#4B0082}文书 此 外 \color{#EE82EE}此外 还 有 \color{#D2691E}还有 丰 富 \color{#32CD32}丰富 的 \color{#EE82EE}的 流 程 \color{#6495ED}流程 数 据 \color{#6495ED}数据 文 献 \color{#6495ED}文献 数 据 \color{#6495ED}数据 法 律 \color{#6495ED}法律 条 文 \color{#6495ED}条文 等 \color{#EE82EE}等 且 \color{#EE82EE}且 文 本 \color{#6495ED}文本 相 对 \color{#EE82EE}相对 规 范 \color{#D2691E}规范 该 \color{#2F4F4F}该 领 域 \color{#6495ED}领域 已 经 \color{#EE82EE}已经 有 \color{#D2691E}有 不 少 \color{#000000}不少 公 司 \color{#6495ED}公司 在 \color{#4682B4}在 做 \color{#D2691E}做 如 \color{#D2691E}如 涂 存 超 \color{#4B0082}涂存超 大 佬 \color{#6495ED}大佬 的 \color{#EE82EE}的 幂 律 \color{#4B0082}幂律 智 能 \color{#6495ED}智能

在 \color{#4682B4}在 医 疗 \color{#6495ED}医疗 健 康 \color{#32CD32}健康 领 域 \color{#6495ED}领域 除 了 \color{#4682B4}除了 影 像 \color{#6495ED}影像 信 息 \color{#6495ED}信息 还 有 \color{#D2691E}还有 大 量 \color{#000000}大量 的 \color{#EE82EE}的 体 检 \color{#D2691E}体检 数 据 \color{#6495ED}数据 临 床 \color{#D2691E}临床 数 据 \color{#6495ED}数据 诊 断 \color{#D2691E}诊断 报 告 \color{#6495ED}报告 等 \color{#EE82EE}等 同 样 \color{#EE82EE}同样 也 \color{#EE82EE}也 是 \color{#D2691E}是 NLP 大 展 \color{#4169E1}大展 身 手 \color{#6495ED}身手 的 \color{#EE82EE}的 地 方 \color{#6495ED}地方 该 \color{#2F4F4F}该 领 域 \color{#6495ED}领域 的 \color{#EE82EE}的 NLP 公 司 \color{#6495ED}公司 碳 \color{#6495ED}碳 云 \color{#D2691E}云 智 能 \color{#6495ED}智能

在 \color{#4682B4}在 教 育 \color{#D2691E}教育 领 域 \color{#6495ED}领域 智 能 \color{#6495ED}智能 阅 卷 \color{#D2691E}阅卷 机 器 \color{#6495ED}机器 阅 读 \color{#D2691E}阅读 理 解 \color{#D2691E}理解 等 \color{#EE82EE}等 都 \color{#EE82EE}都 可 以 \color{#D2691E}可以 运 用 \color{#D2691E}运用 NLP 技 术 \color{#6495ED}技术 国 内 \color{#2F4F4F}国内 这 \color{#2F4F4F}这 方 面 \color{#6495ED}方面 目 前 \color{#9370DB}目前 领 先 者 \color{#6495ED}领先者 应 该 \color{#D2691E}应该 是 \color{#D2691E}是 科 大 \color{#6495ED}科大 讯 \color{#6495ED}讯 飞 \color{#D2691E}飞 和 \color{#EE82EE}和 猿 \color{#6495ED}猿 辅 导 \color{#D2691E}辅导

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值