smartcn优化方案

相国

于 2011-03-26 16:25:00 发布

阅读量1.9k

点赞数

分类专栏： java编程文章标签： smartcn 分词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lgnlgn/article/details/6280118

版权

java编程专栏收录该内容

8 篇文章 0 订阅

订阅专栏

smartcn，基于HMM模型的一套智能分词器，是ictclas的java简化版，原理网上已经能找到，也可以看我前面写的

http://blog.csdn.net/lgnlgn/archive/2010/06/13/5669855.aspx

smartcn 通过计算能提高分词精度（比如和服的问题），这也会导致一个语义连贯的短语可能在不同的上下文产生不同的切分结果，因此用来做搜索引擎的分词器会存在切分不一致的问题，会直接降低搜索的查全率。因此我们当然希望搜索的分词既具有较高的准确性，但语义完整的词语不会在不同上下文（搜索框输入查询的往往很短）下产生不同的结果。

结合smartcn内部原理，我想了几个针对搜索查询的优化方案：

1. 首先smartcn计算构词的跳转时，标点也参与计算，另外句首句尾分别增加了首尾特殊字符。其实标点和首尾特殊字符可以不需要，统一成一个标点，比如空格，设定一个较大的权值，这样可以让一些上下文不一致的机会少一些.

2. 正文不被切开比如“橄榄油”，查询被切开的“橄榄”“油”：把所有smartcn内部的词，都单独切一下，如果能切开的，最后如果正文里有的，把切开的可能也补上，比如“民族英雄”在正文是个词，把“民族”“影响补上”；另外那些自己想多切的词也可以记录下来，比如“集团公司”，这些可以通过最小正向匹配或者其他分词器来切。同时也可以加入同义词。

3. 正文切开了，查询没切开：对分词结果遍历检查连续的词是不是也能构成一个词，如果是，多造一个出来。

4. 优化词典，跳转频率。smartcn内置的词库词量不大，对于搜索切分来说，不必加入短语，但需要加入专有名词比如人名地名，网上能找实现了的增加词库代码；smartcn消歧依靠的是跳转频率库，然而我觉得它的单词库和跳转库似乎不是来源于一个语料。有些词在跳转库中频率比词库的频率还高....当然收集词库也是最难

最后来看看结果

“看李东垣还是看中华人民共和国成立的时候” 加入个新词“李东垣”可以原始分词结果：

看/李东垣/还/是/看/中华人民共和国/成立/的/时候/

加入一些多分信息和同义词变成这样：

看/东垣/李东垣/还是/还/是/看/中华/中国/中华人民共和国/人民/共和国/诞生/成立/的/时候/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

相国 CSDN认证博客专家 CSDN认证企业博客

码龄17年

45: 原创

9万+: 周排名

115万+: 总排名

29万+: 访问

: 等级

2917: 积分

224: 粉丝

45: 获赞

144: 评论

107: 收藏

私信

关注

热门文章

分类专栏

爬虫 1篇
数据挖掘 16篇
搜索开发 10篇
java编程 8篇
分布式 6篇
算法 4篇
机器学习 4篇

最新评论

Windows上安装Hadoop 3.x
2301_77414853: 真不错，很有用
记录一次失败的Windows上milvus安装
相国: 给你点个大大的赞
记录一次失败的Windows上milvus安装
weixin_44462101: 解决了！！希望作者可以看到！其他人也能看到！文章最后netstat 看不到19530这个端口导致连不上的问题解决办法如下： 1.打开VM virtualbox（一般安装bocker toolbox的时候就顺带安装的） 2.找到您的Docker虚拟机：应该在左侧边栏中看得到Docker虚拟机列表。它通常会被命名为default。 3.选中你的虚拟机后点击设置 4.在设置中找到网络 5.默认第一个网卡---》高级---》端口转发 6.在里面新建一个规则名称：您可以为端口转发规则命名（可选）。协议：选择您的应用程序使用的协议（TCP或UDP）。主机IP：将此字段留空或设置为127.0.0.1（表示localhost）。主机端口：指定您要映射到的主机机器（localhost）上的端口。这里是19530 客户机IP：将此字段留空或设置为0.0.0.0（表示所有IP）。客户机端口：指定您要暴露的Docker容器上的端口。这里是19530 7.点击确定就可以了，就可以在netstat中看到19530，然后就可以通过pymilvus中的localhost:19530来连接数据库了以上的解决方案是科学上网，纯英文搜索找到的，国内类似的资料太少了。原理是这样的：19530只是映射到了VM的私有ip地址上罢了，vm的私有ip地址可以通过命令：docker-machine ip 查看到，一般为192.168.99.100，所以我们连接数据库就应该是192.168.99.100:19530而不是127.0.0.1:19530,如果我们还是想要把19530映射到主机上，就需要通过vm，把vm的19530再次映射到主机的127.0.0.1上（也就是上面的操作），这样一来就解决了，netstat正常显示19530端口并可以通过localhost访问了
Windows环境部署安装Chatglm2-6B-int4
weixin_51398329: TypeError: stat: path should be string, bytes, os.PathLike or integer, not NoneType咋回事啊
Windows环境部署安装Chatglm2-6B-int4
相国: 不知道是不是Python库哪个版本对不上chatglm2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。