中文分词适合于网站吗？

最新推荐文章于 2024-04-18 16:17:49 发布

paomadeng

最新推荐文章于 2024-04-18 16:17:49 发布

阅读量572

点赞数

文章标签：全文检索 lucene 数据库产品语言 google

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/paomadeng/article/details/1794094

版权

原文发布在http://paomadeng.javaeye.com/blog/125838

OSPod.Forum希望能够成为跨数据库的应用产品，因此在全文检索的技术方案上没有选择数据库的全文检索方案，毕竟象MySQL这样的开源数据库或者HSQL这样的袖珍数据要集成全文检索功能还是比较麻烦的。因此通过分析，我们选择了lucene作为全文检索的支持。

在使用Lucene的过程中，比较难选择的就是分析器。选择Lucene自带的CJKAnalyer?ChineseAnalyer？StandardAnalyer？还是使用带有中文分词的分析器？

选型评判目标：
1.支持多语言
2.性能如何
3.是结果越多越好？还是把结果缩小在最小范围？

结论：
1.CJKAnalyer实现非常不错，对中、日、韩支持不错，支持部分中文分词（双字），但是不支持3个以上汉字词组的搜索。
2.ChineseAnalyer不支持中文分词。
3.StandardAnalyer，不支持中文分词，在多语言方面支持不错。
4.中文分词，的确搜索结果精确了，但是在词库方面要求很全面，性能方面、智能化方面都有比较高的要求。可是这是用户需要的结果吗？
参考百度、Google等大家，最后决定论坛产品是非专业产品，因此搜索出尽可能多的合理结果才是最重要的，因此决定选择StandardAnalyer作为分析器。

仅代表个人意见，欢迎大家批评指正。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
中文分词适合于网站吗？

原文发布在http://paomadeng.javaeye.com/blog/125838OSPod.Forum希望能够成为跨数据库的应用产品，因此在全文检索的技术方案上没有选择数据库的全文检索方案，毕竟象MySQL这样的开源数据库或者HSQL这样的袖珍数据要集成全文检索功能还是比较麻烦的。因此通过分析，我们选择了lucene作为全文检索的支持。在使用Lucene的过程中，
复制链接

扫一扫

paomadeng CSDN认证博客专家 CSDN认证企业博客

码龄17年

14: 原创

124万+: 周排名

100万+: 总排名

3万+: 访问

: 等级

530: 积分

1: 粉丝

1: 获赞

11: 评论

6: 收藏

私信

关注

热门文章

分类专栏

最新评论

推荐手机生活搜索软件
w騙す点か: vpnvpnip地址查询 - 云+社区 - 腾讯云删除协议端口模板集合,查询ip地址模板集合,查询ip地址模板...... 查看网页详情:https://imedwz.baidu.com/t/ipt/bAvi2y ，查询地址
Tomcat绑定具体IP
yebai: xuexile!!
Tomcat绑定具体IP
wangyuexin345: 太感谢，纠结了半天，弄好了
管中窥豹，从缩略图功能看论坛的发展
胡德咏: 即使是现在，字符拼图仍然很强大
OSPod.Forum 先睹为快
maggotking: 首页模板很坑爹

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。