一、分词算法
分词算法主要有基于字符串的匹配和基于统计和机器学习的分词
1.基于字符串的匹配:以现有的词典为基础进行,扫描字符串,若发现字符串的子串和词相同,即为匹配,通常加入一些启发式规则:正向/反向最大匹配、长词优先等。
{ ① 最 大 匹 配 法 : 以 设 定 的 最 大 词 长 度 为 框 架 , 取 出 其 中 最 长 的 匹 配 词 。 如 : “ 中 国 共 产 党 ” 会 被 完 整 取 出 , 而 不 会 被 进 一 步 分 词 ② 最 大 概 率 法 : 对 句 子 整 体 进 行 分 词 , 找 到 最 佳 的 词 汇 排 列 组 合 规 律 。 如 : “ 中 午 好 “ 会 被 分 词 为 “ 中 午 ” / “ 好 ” ③ 最 短 路 径 分 词 法 : 寻 找 单 词 数 最 少 的 分 词 方 法 \left\{ \begin{aligned}& ①最大匹配法:以设定的最大词长度为框架,取出其中最长的匹配词。 如:“中国共产党”会被完整取出,而不会被进一步分词\\ \\&②最大概率法:对句子整体进行分词,找到最佳的词汇排列组合规律。如:“中午好“会被分词为“中午”/“好” \\ \\&③最短路径分词法:寻找单词数最少的分词方法 \end{aligned} \right. <