机器之心中的“号内搜”到底用没用搜索算法?

博主是做搜索算法的,平时会研究、体验一些平台或者公司的搜索方面的东西,今天在使用机器之心的时候,没有像以前一样直接去看他们最新一期的文章,而是看到了里面的一个东西 ---- 搜索文章-号内搜,就体验了下这个东西。我主要想判断下里面到底是使用了什么样的搜索算法?

一、当前情况记录

当前里面一共有 805 篇文章,我搜的的“自然语言”这四个关键字,然后大约等了2~3秒,出来1529篇推荐,而且按照时间进行降序处理,而且每张文章都把出现“自然语言”的部分给摘录了出来,并且把“自然语言”4个字给标“绿色”了出来

根据这样一个现象,我有一个初步怀疑:他们根本就没用什么搜索算法,只是简单的进行了把你搜的关键字出现过的文章给找了出来,并且按照发布时间进行降序处理

二、其实在这里还是有一些更好的做法

对于只有几百几千篇文章的公众号来说,完全可以对每篇文章进行人工标注。因为每个公众号都是有自己主题的,好比什么人工智能、竞赛、数学、笑话之类,所以完全可以先做一个整集,把这个主题下面的所有关键词找出来,然后给公众号里面发布的文章手动赋予几个标签,然后把这个标签关系存在后台,

这样做有几个好处,

1:有了人工主题标注之后,首先检索速度快了很多,如果网速正常,那么检索速度就是毫秒级别的

2:对比过去那种按照字、词来进行检索的方案,这样更加能把和用户想要搜索的主题相关的文章给找出来

三、如果还想更加方便的话,那就要用到nlp方面的知识了

训练nlp模型,自动对文章提取出来文章的主题词,然后用户在检索的时候,判断文章和用户检索词的相关性,然后按照相关性来进行排序

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值