关于分词的问题

最新推荐文章于 2024-09-30 07:30:00 发布

shangzhenhui

最新推荐文章于 2024-09-30 07:30:00 发布

阅读量1k

点赞数

分类专栏：项目进度文章标签： dictionary 扩展

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shangzhenhui/article/details/6456105

版权

项目进度专栏收录该内容

0 篇文章 0 订阅

订阅专栏

前两天分别用Analyzer和ICTCLAS作了分词，没有统计两者的分词准确率，故也无法分辨出孰优孰劣。只说一下自己做的结果：

解决的问题：

给出一个目录，能够对该目录中的所有txt文件进行分词，并将分词的结果保存在原来的txt文件中。程序中运用了递归方法，可以对目录子文件夹中的文件进行分词。

尚存在的问题：

没有实现停用词。ICTCLAS提供的是free版本，可能压根就没有停用词的功能，只是提供了词表扩展的功能，但是此功能对我似乎没有什么用途，因为我要处理的文件不包括或者只包括很少的专业词汇。IKanalyzer提供了停用词的功能，但是要用到Configuration.xml配置文件。我按照网友的说法进行了配置，但是无法实现相应的效果。注：我在程序中对Dictionary类进行了初始化。

下一步：

研究TFIDF的实现。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。