NLP实践Task2——特征提取

最新推荐文章于 2022-11-23 09:42:59 发布

路啦路

最新推荐文章于 2022-11-23 09:42:59 发布

阅读量230

点赞数

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42517469/article/details/93496925

版权

该博客介绍了自然语言处理中的特征提取，包括分词概念（正向、逆向、双向最大匹配法）、词和字符频率统计、n-gram语言模型（unigram、bigram、trigram）以及词袋模型的应用。同时，详细讲解了文本矩阵化的步骤，如分词、去停用词、构建词表和文档向量化。

摘要由CSDN通过智能技术生成

任务描述

基本文本处理技能
1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；
1.2 词、字符频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）

2.1 语言模型中unigram、bigram、trigram的概念；
2.2 unigram、bigram频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）
3. 文本矩阵化：要求采用词袋模型且是词级别的矩阵化
步骤有：
3.1 分词（可采用结巴分词来进行分词操作，其他库也可以）；
3.2 去停用词；构造词表。
3.3 每篇文档的向量化。

1.基本文本处理技能

1.1分词的概念（分词的正向最大、逆向最大、双向最大匹配法）

最大匹配法：最大匹配是指以词典为依据，取词典中最长单词为第一个次取字数量的扫描串，在词典中进行扫描（为提升扫描效率，还可以跟据字数多少设计多个字典，然后根据字数分别从不同字典中进行扫描）。例如：词典中最长词为“中华人民共和国”共7个汉字，则最大匹配起始字数为7个汉字。然后逐字递减，在对应的词典中进行查找。

正向最大匹配法：对句子从左到右进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP实践Task2——特征提取

任务描述基本文本处理技能1.1 分词的概念（分词的正向最大、逆向最大、双向最大匹配法）；1.2 词、字符频率统计；（可以使用Python中的collections.Counter模块，也可以自己寻找其他好用的库）2.1 语言模型中unigram、bigram、trigram的概念；2.2 unigram、bigram频率统计；（可以使用Python中的collections.Cou...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。