文本分类匹配字典 java_文本分类的预处理

最新推荐文章于 2024-06-17 20:34:59 发布

史努比狗狗

最新推荐文章于 2024-06-17 20:34:59 发布

阅读量371

点赞数

文章标签：文本分类匹配字典 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35785909/article/details/114244254

版权

文本数据预处理，包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。

1.文档切分

文档切分这个操作是可选的，取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的，那么这一步就可以省略了。反之，如果文档集合是一个单一的文件，所有的文章都存储在这个文件中，那么你就要将其中的文章提取出来单独存放在一个文件中，从而便于以后的操作。

一般来说，单一文件的文档集合中文章与文章之间都会使用一些标记来区分，比如用空行、特定符号等等。我做的课程作业中有一个人民日报语料库，语料库中文章与文章之间就是用空行来分隔的。

2.文本分词

文本分词是预处理过程中必不可少的一个操作，因为后续的分类操作需要使用文本中的单词来表征文本。目前文本分词已经有很多比较成熟的算法和工具，在网上搜索一下就会发现很多。

文本分词包括两个主要步骤，第一个是词典的构造，第二个是分词算法的操作。

词典的构造目前比较流行的有字典树即标准trie树，字典树的构造有很多方法，本人博客中也有一篇用java实现字典树的博文，但是空间利用率和效率可能不是很高。目前比较不错(节约空间和效率)的构造方法有双数组trie树等。

分词算法有简单的有复杂的，常见的主要有正向最大匹配、反向最大匹配、双向最大匹配、语言模型方法、最短路径算法等等，这些算法在网上都可以找到详细的资料。

3.去停用词

去停用词也是预处理过程中不可缺少的一部分，因为并不是文本中每一个单词或字符都能够表征这个文本，比如说“这个”、“的”、“一二三四”、“我你他”、“0 1 2 ……9”等等，那么这些词就应当从文本中清除掉。可

最低0.47元/天解锁文章

史努比狗狗

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本分类匹配字典 java_文本分类的预处理

文本数据预处理，包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。1.文档切分文档切分这个操作是可选的，取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的，那么这一步就可以省略了。反之，如果文档集合是一个单一的文件，所有的文章都存储在这个文件中，那么你就要将其中的文章提取出来单独存放在一个文件中，从而...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。