我们能给大语言模型换个国产底座。求助！

彭军辉

已于 2024-03-28 21:38:31 修改

阅读量304

点赞数 4

文章标签：人工智能

于 2024-03-28 14:13:55 首次发布

本文链接：https://blog.csdn.net/p32320/article/details/137110482

版权

我们的价值

有人认为我们做的语义相似没价值，大模型就可以做。其实不是的。什么是语义相似？

我们语义相似计算和大模型的底层算法——句子向量距离计算是一个类型的东西，都是人工智能底层算法。我们是语言学方向，他们是统计学方向。

我来给大家举例说明我们的价值。

上图是我测试月之暗面KIMI语音助手的截图。同一个问题，同样的问法，不同时间问答案不一样。最后的答案变得比较靠谱了。为什么呢？因为中间我问了一个问题：

列举出来和“钵钵鸡里有条虫”语义相似的句子。要求主题不要离开“钵钵鸡”，对语义相似性进行评分，满分十分，按评分排序，最高的在上面。

——————

下面来给大家分析：

1.第一天我在没有输入复杂提示词的情况下，大模型KIMI并不知道还有“钵钵鸡里发现了虫子”这样的句子和“钵钵鸡里有条虫”语义相似。有人说这说明Kimi有记忆能力。但这不是重点。重点是为什么之前它不知道还有这句话和“钵钵鸡里有条虫”语义相似？

因为它们的语义相似其实不是真正的语义相似，是向量距离相近，是个相对值，不是个绝对值。没有真正语义相似的句子，它就把向量距离比较近但实际上语义不相似的句子列举给你了。

2.所有的大语言模型底层都是向量距离计算。它们的语义相似实际上就是向量距离相近。这是搜索引擎的思路。

3.什么是语义相似？两句话说的一个意思，才是语义相似。这是最基本的概念，然而有人偏偏把它和搜索的相关性混淆了。这就是我说的，“掉进了信息孤井”，看不见井外的世界。他们一直做搜索技术，用做搜索的脑瓜子理解问答技术的语义相似。

两句话语义相似，答案应该也是差不多的。一个人说“钵钵鸡里有条虫”，你大概会感到恶心。一个人说“饭里有石头”，你可能照样吃饭。这能叫语义相似吗？当然，杠精非要说是语义相似，那就是相似吧！

4.正因为大语言模型计算的是向量距离，不是语义相似，才会有大量的幻觉问题。语义相似是绝对值。相似或者不相似有边界。（向量距离是相对值。没有边界，只有远近。）这个边界就保证了基于语义相似生成的大语言模型不会有幻觉问题。

我们要做什么

如果有足够的资金，我们深度开发，用我们的语义图谱技术也可以生成新知识、做应用题、写文章、编程序。我们的生成式大语言模型不用浪费那么多算力，我们可以离线使用运行在智能音箱上面。我们已经做出来使用语义图谱生成新知识的DEMO了。

2023年之前，我们一直在做客服机器人类产品。过去我们的产品可以准确理解一句话的语义。受到生成式AI大语言模型启发，我发现我们语义图谱技术也可以生成新知识。我们产品也开始能处理一段话的语义了。基于统计学算法的生成式AI大语言模型显然是个巨大进步，但是受制于他们语义理解有缺陷，消耗资源过多，他们还不能在手持设备上普及起来。这是我们的机会。我们基于语义图谱的大语言模型将会重点在离线环境下运行，在手持设备上运行。

求助

2017年一位大咖请我在北京吃饭，跟我讲要做（技术的）继承者不要做革命者，我依然记忆犹新。

去年美国人搞出来了大语言模型，又把我们甩开了一大截。大语言模型的发明人肯定是个继承者。如果我们还是做继承者，恐怕难以望其项背。

我的算法是语言学算法，是逻辑启发派。我们一直在客服市场表现较好，适合处理单句的语义。这几年技术一直不断完善。

受大语言模型启发，我已经找到了处理复句和一段话的思路。我们甚至也可以生产新知识，未来也能做应用题、写文章等等。

然而，这几年一边搞算法一边养活团队，竟然让我负债数累累。虽然我们已经完成了几百万的销售额，但是我们开支也很大。

希望能找到一位愿意投革命性技术的投资人，一起探讨下怎么使用我们新算法赶超现在的大语言模型？

现在基于机器学习搞的大语言模型有许多问题。它的问题可能就是我们的优势。

大语言模型回答问题结果不可控，我们可控。

大语言模型回答问题答案太啰嗦，我们简短更自然。

大语言模型回答问题个性化不足，我们更个性化。

大语言模型回答问题速度慢，我们更快。

氖星彭军辉

本文最早发表于2024年3月28日

彭军辉

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
我们能给大语言模型换个国产底座。求助！

有人认为我们做的语义相似没价值，大模型就可以做。其实不是的。什么是语义相似？我们语义相似计算和大模型的底层算法——句子向量距离计算是一个类型的东西，都是人工智能底层算法。我们是语言学方向，他们是统计学方向。
复制链接

扫一扫