python自然语言处理—中文分词技术

                                                     中文分词技术

 

一、中文分词简介

    1、什么是词?

        英文定义:单词本身就是 "词" 的表达,一篇英文文章就是 "单词" 加分隔符(空格)来表示的。

        中文定义:在汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分的。

    2、中文分词

        在处理中文文本时,需要进行分词处理,将句子转化为词的表示。

        这个切词处理过程就是中文分词,它通过计算机自动识别出句子的词,在词间加入边界标记符,分隔出各个词汇。

    3、影响分词效果的因素

        分词歧义未登录词分词粒度粗细等。

        分词歧义示例:

            句子 “结婚的和尚未结婚的” 可以分词为 “结婚 /

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值