第三章 3、1 文本预处理之分词（Word Segmentation）

最新推荐文章于 2024-02-23 11:59:41 发布

AI_Younger_Man

最新推荐文章于 2024-02-23 11:59:41 发布

阅读量536

点赞数

分类专栏： ● 人工智能 # 自然语言处理 NLP 文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38888209/article/details/104398821

版权

一、大纲总览

1、tough资料：各类文本等的输入。
2、分词。好的分词算法很重要。
3、文本预处理。
4、标准化：单词的时态，单复数。都转换为最原始的。这时还是字符串。
5、特征提取：向量表示，thidf算法，w2w，seq2seq算法等等。
6、模型：向量有了，然后就是根据算法去匹配。
在这里插入图片描述

二、分词

可以直接用的分词工具。
在这里插入图片描述

1、分词算法之最大匹配
向前最大匹配、向后最大匹配、双向最大匹配（不讲）

向前最大匹配
1、首先输入一个句子，已知后建好的词典库，设置好窗口值（5）
2、窗口从第一个汉字开始向后滑动以此减少
3、在词典库中匹配到的话，就直接切分句子，然后窗口

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第三章 3、1 文本预处理之分词（Word Segmentation）

一、大纲总览1、tough资料：各类文本等的输入。2、分词。好的分词算法很重要。3、文本预处理。4、标准化：单词的时态，单复数。都转换为最原始的。这时还是字符串。5、特征提取：向量表示，thidf算法，w2w，seq2seq算法等等。6、模型：向量有了，然后就是根据算法去匹配。二、分词可以直接用的分词工具。1、分词算法之最大匹配向前最大匹配、向后最大匹配、双向最大匹配（不讲...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。