【文本挖掘】——中文分词

本文详细介绍了中文分词的算法,包括基于字符串匹配和统计机器学习的方法,以及分词工具如jieba的使用。此外,讨论了分词的难点如歧义和未登录词,并介绍了如何修改词典、去除停用词以及词性标注在分词过程中的应用。
摘要由CSDN通过智能技术生成

一、分词算法

  分词算法主要有基于字符串的匹配和基于统计和机器学习的分词

1.基于字符串的匹配:以现有的词典为基础进行,扫描字符串,若发现字符串的子串和词相同,即为匹配,通常加入一些启发式规则:正向/反向最大匹配、长词优先等。

{ ① 最 大 匹 配 法 : 以 设 定 的 最 大 词 长 度 为 框 架 , 取 出 其 中 最 长 的 匹 配 词 。 如 : “ 中 国 共 产 党 ” 会 被 完 整 取 出 , 而 不 会 被 进 一 步 分 词 ② 最 大 概 率 法 : 对 句 子 整 体 进 行 分 词 , 找 到 最 佳 的 词 汇 排 列 组 合 规 律 。 如 : “ 中 午 好 “ 会 被 分 词 为 “ 中 午 ” / “ 好 ” ③ 最 短 路 径 分 词 法 : 寻 找 单 词 数 最 少 的 分 词 方 法 \left\{ \begin{aligned}& ①最大匹配法:以设定的最大词长度为框架,取出其中最长的匹配词。 如:“中国共产党”会被完整取出,而不会被进一步分词\\ \\&②最大概率法:对句子整体进行分词,找到最佳的词汇排列组合规律。如:“中午好“会被分词为“中午”/“好” \\ \\&③最短路径分词法:寻找单词数最少的分词方法 \end{aligned} \right. <

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值