第三章 3、1 文本预处理之分词(Word Segmentation)

一、大纲总览

1、tough资料:各类文本等的输入。
2、分词。好的分词算法很重要。
3、文本预处理。
4、标准化:单词的时态,单复数。都转换为最原始的。这时还是字符串。
5、特征提取:向量表示,thidf算法,w2w,seq2seq算法等等。
6、模型:向量有了,然后就是根据算法去匹配。
在这里插入图片描述

二、分词

可以直接用的分词工具。
在这里插入图片描述

1、分词算法之最大匹配
向前最大匹配、向后最大匹配、双向最大匹配(不讲)

  • 向前最大匹配
    1、首先输入一个句子,已知后建好的词典库,设置好窗口值(5)
    2、窗口从第一个汉字开始向后滑动以此减少
    3、在词典库中匹配到的话,就直接切分句子,然后窗口
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值