基于KNN+层次SVM的文本自动分类技术

            针对大 规 模 文 本 的 自 动 层 次 分 类 问 题 , K 近 邻 ( KNN) 算 法 分 类 效 率 较 高 , 但 是 对 于 处 于 类 别 边 界 的 样 本 分 类 准 确 度 不是 很 高 。 而 支 持 向 量 机 ( SVM) 分 类 算 法 准 确 度 比 较 高 , 但 以 前 的 多 类 SVM 算 法 很 多 基 于 多 个 独 立 二 值 分 类 器 组 成 , 训 练 过 程 比 较缓 慢 并 且 不 适 合 层 次 类 别 结 构 等 。 提 出 一 种 融 合 KNN 与 层 次 SVM 的 自 动 分 类 方 法 。 首 先 对 KNN 算 法 进 行 改 进 以 迅 速 得 到 K 个最 近 邻 的 类 别 标 签 , 以 此 对 文 档 的 候 选 类 别 进 行 有 效 筛 选 。 然 后 使 用 一 个 统 一 学 习 的 多 类 稀 疏 层 次 SVM 分 类 器 对 其 进 行 自 上 而 下的 类 别 划 分 , 从 而 实 现 对 文 档 的 高 效 准 确 的 分 类 过 程 。 实 验 结 果 表 明 , 该 方 法 在 单 层 和 多 层 的 分 类 数 据 集 上 的 分 类 准 确 度 比 单 独 使 用 其 中 任 何 一 种 要 好 , 同 时 分 类 时 间 上 也 比 较 接 近 其 中 最 快 的 单 个 分 类 器 。

         当 前 流 行 的 自 动 文 本 分 类 算 法 主 要 有 神 经 网 络 NN 算 法、 朴 素 贝 叶 斯 NB 方 法、 K 近 邻 KNN算 法和 支 持 向 量 机 SVM算 法等 。 Yang 等在 数 据 集 Reuters-21578 上 的 实验 表 明 , 相 比 于 其 他 方 法 , KNN 和 SVM 方 法 无 论 在 召 回 率 还 是准 确 率 上 都 有 一 定 程 度 的 提 高 。 KNN 算 法 原 理 简 单 , 分 类 效 率较 高 , 但 其 是 一 种 基 于 实 例 的 统 计 学 习 方 法 , 对 于 处 于 类 别 边 界的 样 本 分 类 准 确 度 不 是 很 高 。 而 SVM 分 类 算 法 目 标 在 于 最 大化 分 类 边 界 之 间 的 距 离 , 因 此 分 类 准 确 度 比 较 高 , 但 训 练 分 类 器过 程 比 较 缓 慢 。因 此 , 研 究 者 通 过 对 KNN 和 SVM 两 种 算 法 进 行 有 机 结 合 ,一 方 面 提 升 分 类 的 准 确 度 , 一 方 面 提 高 分 类 效 率 , 从 使 海 量 文 档自 动 分 类 达 到 较 好 的 效 果 。 

        K-NN 与 SVM 相 融 合 的 文 本 分 类 技 术 研 究】这篇文献,提 出 一 种 将 KNN 与 SVM相 结 合 的 文 本 分 类 算 法 。 首 先 使 用 KNN 算 法 找 出 与 文 本 最 接近 的 K 个 邻 居 的 类 标 签 , 然 后 在 邻 居 类 标 签 集 上 使 用 多 个 二 值SVM 分 类 器 对 样 本 进 行 精 分 , 在 减 少 有 效 候 选 类 数 目 的 同 时 ,有 效 提 高 了 分 类 的 准 确 度 。不足:由 于 这 些 二 值 分 类 器 分 别 由不 同 的 训 练 样 本 单 独 训 练 得 到 , 可 能 无 法 保 证 学 习 得 到 的 分 类面 在 分 类 输 出 上 保 持 良 好 的 可 比 性 。另 一 方 面 , 其 假 设 的 单 层文 本 类 别 结 构 在 实 际 中 往 往 是 较 少 数 的 。

       【 基 于 SVM-KNN 的 文 本 分 类 算 法 及 其 分 析】这篇文献,首 先 使 用所 有 类 的 SVM 分 类 器 对 样 本 进 行 划 分 , 然 后 对 各 类 别 的 输 出 概率 进 行 比 较 。 只 有 当 最 大 输 出 值 ( 预 测 正 确 类 ) 与 次 大 输 出 值( 其 它 最 具 混 淆 性 的 错 误 类 ) 之 间 的 差 大 于 某 个 阈 值 时 , 才 将 该结 果 作 为 分 类 器 的 最 终 输 出 结 果 。 如 果 其 差 值 小 于 该 阈 值 , 则进 一 步 使 用 KNN 分 类 器 来 得 到 最 终 结 果 。 这 样 提 高 了 分 类 输出 结 果 的 置 信 度 , 然 而 , 在 最 坏 情 况 下 , 该 方 法 的 分 类 过 程 是SVM 和 KNN 方 法 的 线 性 叠 加 , 分 类 的 效 率 有 所 下 降 。

       然 而 , KNN 算 法 通 常 需 要 计 算 待 测 样 本 到 所 有 训 练 样 本 的距 离 并 排 序 , 从 而 选 出 其 最 近 的 K个 邻 居 。 假 设 每 个 样 本 的 特 征维 度 为 d, 则 上 述 步 骤 的 时 间 复 杂 度 为 n × d + nlogn。 在 对 海 量 文本 进 行 分 类 时 , n 的 值 往 往 很 大 , 特 征 维 度 也 比 较 高 。 因 此 , 为了 加 快 KNN 算 法 的 执 行 效 率 , 一 般 从 两 个 方 面 改 进 算 法 的 分 类效 率 : 1) 降 低 样 本 的 维 度 , 选 择 最 精 简 的 特 征 来 表 示 文 本 向 量 ,这 种 做 法 往 往 较 为 直 观 , 但 是 当 维 度 过 少 时 分 类 效 果 会 显 著 降低 ; 2) 将 训 练 集 中 的 相 似 文 本 适 当 归 并 , 将 其 作 为 一 个 文 档 来处 理 , 这 样 将 明 显 减 少 需 要 比 较 的 文 档 数 目 。 这 里 我 们 采 用 文献 【 K-NN 与 SVM 相 融 合 的 文 本 分 类 技 术 研 究】 中 的 方 法 , 在 每 个 自 然 类 别 中 再 对 其 进 行 类 别 内 部 文 档的 聚 类 , 将 其 聚 成 j 个 子 类 。 然 后 计 算 每 个 子 类 的 中 心 向 量 , 最后 将 待 分 类 样 本 与 这 些 子 类 的 中 心 向 量 计 算 距 离 , 从 而 快 速 找出 最 近 的 K 个 邻 居 中 心 。 由 于 聚 类 后 每 个 类 别 包 含 的 文 本 数 量急 剧 减 少 , 因 此 KNN 分 类 的 算 法 效 率 有 了 明 显 的 提 高 。

     支 持 向 量 机 SVM 方 法 具 有 较 为 完 备 的 理 论 基 础 。 在 各 种不 同 的 实 际 应 用 中 也 表 现 出 了 较 为 优 越 的 分 类 性 能 , 并 具 有 较高 的 计 算 效 率 , 能 够 高 效 处 理 大 规 模 数 据 。 支 持 向 量 机 利 用 训练 数 据 来 建 模 最 大 间 隔 超 平 面 , 然 后 使 用 超 平 面 作 为 决 策 边 界 ,对 未 归 类 的 数 据 进 行 分 类 。 所 谓 最 大 间 隔 , 即 训 练 集 样 本 点 到该 超 平 面 的 最 小 几 何 间 隔 最 大 , 而 间 隔 越 大 则 泛 化 错 误 越 小 , 对于 新 数 据 的 分 类 判 别 能 力 就 越 强 。 最 终 分 类 超 平 面 的 建 模 实 际上 只 需 要 用 到 离 超 平 面 最 近 的 少 数 训 练 样 本 , 这 些 样 本 也 就 是“ 支 持 向 量 ” , 其 他 不 是 支 持 向 量 的 训 练 样 本 点 对 分 类 超 平 面 没有 任 何 影 响 , 因 此 支 持 向 量 机 方 法 具 有 较 高 的 稳 定 性 。

     KNN +层 次 SVM 算 法 流 程在 算 法 的 训 练 阶 段 , 两 部 分 单 独 进 行 。 KNN 训 练 过 程 主 要是 对 各 个 类 中 的 子 类 进 行 聚 类 并 找 到 最 优 的 K 值 ; 层 次 SVM 分类 器 的 训 练 主 要 得 到 层 次 类 别 树 上 各 分 类 面 的参 数 。 而 在 实 际 分 类 阶 段 , 算 法 首 先 利 用 KNN 分 类 算 法 计 算 其最 近 的 K个 邻 居 中 心 , 然 后 统 计 其 K 个 最 近 邻 居 中 的 所 有 类 别 ,对 于 每 个 类 别 分 别 调 用 相 应 的 层 次 SVM 分 类 器 进 行 分 类 。

     “ KNN + 层 次 SVM” 算 法 流 程 如 下 所 示 :算 法 KNN + 层 次 SVM 分 类 算 法输 入 样 本 集 和 待 测 样 本 x 的 特 征 向 量输 出 待 测 样 本 x 的 层 次 分 类 标 签步 骤 :
      1) 通 过 距 离 函 数 选 择 与 待 测 样 本 x距 离 最 近 的 k个 训 练 样本 中 心 ( 子 类 中 心 向 量 ) ; 其 中 k 为 KNN 训 练 得 到 的 最 优 参 数 。
      2) 对 于 这 k 个 样 本 中 心 对 应 的 每 个 类 别 w i , 我 们 保 留 其 对应 的 层 次 路 径 作 为 候 选 集 , 将 待 测 样 本 x 的 特 征 向 量 输 入 该 候选 集 对 应 的 各 层 次 的 SVM 分 类 器 , 计 算 样 本 x 与 路 径 上 各 类 的相 似 度 。
      3) 若 与 叶 子 节 点 w i 类 的 相 似 度 值 最 大 , 则 将 类 别 w i 对 应的 层 次 路 径 类 别 标 签 作 为 样 本 x 的 分 类 结 果 , 算 法 结 束 。

      “ KNN + 层 次 SVM” 分 类 算 法 结 合 了 KNN 算 法 的 时 效 性 和SVM 算 法 的 准 确 性 。 通 过 SVM 分 类 器 对 KNN 分 类 器 得 到 的 邻居 标 签 作 为 候 选 标 签 集 进 一 步 分 类 , 达 到 的 准 确 度 比 较 高 。 该方 法 尤 其 对 于 类 别 标 签 比 较 多 时 更 有 效 , 可 以 使 用 KNN 过 滤 掉一 些 明 显 不 需 要 调 用 的 类 别 对 应 的 SVM 分 类 器 。
       文 本 预 处 理 和 特 征 选 择,从 原 始 的 中 文 文 本 得 到 标 准 长 度 的 文 本 向 量 需 要 一 个 文 本预 处 理 的 过 程 。 该 过 程 主 要 由 分 词 、 去 停 用 词 和 统 计 词 频 信 息三 部 分 组 成 。 本 文 采 用 中 科 院 计 算 所 的 开 源 分 词 工 具ICTCLAS  来 实 现 。 我 们 对 每 篇 文 档 中 出 现 的 词 统 计 其 词 频和 出 现 的 文 档 数 量 ( 文 档 频 率 ) , 以 计 算 文 档 特 征 权 重 词 频 -反文 档 频 率 ( TF-IDF) 向 量 。 在 获 得 以 上 统 计 信 息 后 , 计 算 特 征 词典 中 每 个 特 征 词 对 于 每 个 类 别 的 区 分 度 。 这 里 使 用 交 叉 熵 和 互信 息 计 算 特 征 区 分 度 的 方 法 , 将 其 加 权 平 均 来 选 择 有 效 的 特 征 。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值