小E最近一直在使用华为云的云搜索服务。让他很开心的是,华为云的云搜索服务,可以自定义自己的词库来做分词、停词。让他更意想不到的是,修改词库还可以热更新,不用重启即可生效。
但是,词库中的词从哪里来,哪些才是有用的词,这真是让小E头疼的事情。小E每天苦读海量文章,才能从中找出几个自己认为还不错的词。突然,小E灵机一动:
数据!词语不就是在数据中!
小E不愧是混迹于大数据IT界的老手,三下五除二搞出来了一个词语提取小工具。
下面,我们一起看看小E怎么使用他的小工具的。
第一步,小E找到一篇最近大火的复仇者联盟的电影新闻,把它拷贝到小工具(文章很长也可以存储在txt文件后上传)。
第二步,小E点击“Submit”,后台就开始通过各种大数据算法计算。不一会,结果就显示出来啦。
恩~~~看来提词效果还不错,我们再来看看有没有其他一些有趣的结果呢
我们发现像“迪士尼”,“漫威”这样的词也能被很好地发现。
这样,小E在使用华为云的云搜索服务的时候,可以把这些新发现的词语加入词库,方便分词,提高搜索结果了呢~
进一步,小E发现,如果用这个工具分析下一篇文章,“迪士尼”或“漫威”可能会重复出现。为了更有效率,小E又添加了一个过滤功能
这样,把已发现的词放在这里,下一次就不会出现,每次都能发现新词啦~~~
我们看下结果
“迪士尼”和“漫威”就真的没出现了哦
各位大佬看官,看到这里,是不是在想这样的工具要花多少钱才能用呢?
我们的回答是:
免费!免费!免费!
没错,你没有看错~快戳下面链接,和小E一起感受新词发现的乐趣吧~