C#中文分词算法：ChineseAnalyzer

最新推荐文章于 2024-04-13 13:34:22 发布

姓名不能为空

最新推荐文章于 2024-04-13 13:34:22 发布

阅读量4.5k

点赞数 4

分类专栏： C#

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hww9011/article/details/20544615

版权

本文介绍了如何在C#中使用Lucene.Net和Lucene.China库进行中文分词。需要引用Lucene.Net.dll和Lucene.China.dll库，并将data文件夹中的.sDict.txt等文件放在特定路径下。示例代码展示了如何创建Analyzer实例，对输入文本进行分词处理，并输出分词结果。

摘要由CSDN通过智能技术生成

1.首先需要引用 2个dll库文件 Lucene.Net.dll + Lucene.China.dll

using Lucene.Net;
using Lucene.Net.Analysis;
using Lucene.China;

2.还有一个data文件夹需要放在C:\Program Files (x86)\Common Files\microsoft shared\DevServer\10.0目录下

里面有三个文件

（1）.sDict.txt

（2）.sDict.txt.bak

（3）.sNoise.txt

这三个文件主要是用来根据那些词去分词的词语如图：

最低0.47元/天解锁文章

姓名不能为空

关注

4
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。