豆包AI数学对话的底层逻辑

仙海赤

已于 2025-01-07 11:26:08 修改

阅读量1.5k

点赞数 27

文章标签：人工智能算法计算机视觉

于 2025-01-07 11:24:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xian_haichi/article/details/144981358

版权

引言；

在一次偶然的机会我使用豆包AI在求解一道数学题目的过程中，发现了最基本的数学公式，即便是我认为AI数学对话中的底层逻辑，本次我的研究，也是基于这一底层逻辑进行分析，刨析AI对话中如何实现从图片到解题这一过程，了解AI数学对话的底层思想

对于豆包AI，其求解数学题目分为如下几步

简略而言可以分为以下四部分

目录；

1，题目文本选取

2，归类题型

3，调用合适的数学运算，推理模块

4，验证逻辑

5，引用文献

正文；

1，题目文本选取

在我们的日常生活中，可以使用提取文字的应用程序数不胜数

微信，qq，百度网盘，夸克浏览器，钉钉，搜狗浏览器

他们各自都有各自的优点，甚至可以说大大方便了人们的生活，如果想要模拟al是如何对一个题目进行求解时，那么从图片上提取文字便是必不可少的，甚至是必要的，但是这些软件的识别也是基于一些底层来实现，这些底层各有各的缺点和优点

于此，我选择使用Umi-OCR 原因如下；

#准确度高：采用深度学习技术，在训练模型时使用大量样本数据，能更好地识别文本中的字符和数字，对低质量图像和扭曲图像也有出色的识别效果。

#速度快：运用多线程处理技术，可在短时间内完成大量文档的识别和转换。

#支持多语言：除常见的中英文外，还支持多种欧洲语言和亚洲语言的识别，如日文、韩文、德文、法文等。

#免费开源：项目代码在 GitHub 开源，用户可免费使用，也可根据自身需求进行二次开发。

#离线使用：下载解压后即可离线运行，无需网络连接，方便在没有网络的环境中使用。

#兼容性好：适用于 Windows 7 x64、Linux x64 等系统，可满足不同用户的操作系统需求。

而此程序的应用场景也非常广泛

而对于其中的场景，我需要将图片OCR并且将其中的文档数字化

这是我成功安装后的文件夹

打开其应用程序后

勾选截图OCR，便可以将图片粘贴到此应用程序中

通过此应用程序，进而将其中的图片中的文字数字化

这是我在高等数学中的一道练习题目，将其放入截图OCR中

发现其0失误的将其全部转化完成为文字，虽然在其顺序可能存在其微小的误差，但是也证明了我的方案的可行性。

如此，便将其文本选取完全实现完毕！！！

2，归类题型

由于在这次的研究中，在互联网上并未找到其对于AI数学应用的具体流程，因此这部分基于我的猜想，即对提取文字内容进行的分析我具体将这一猜想分为了两部分即

关键字；例如求解“极大值”“极小值”“微分方程”等
符号提取；例如在提取到的文字中的“%”“+”等

然后基于此对题目进行分析，从而确立求解路线而符号也将其中的函数进行调用，即用到哪一模块，调用哪一模块的函数。

类如一个混合加法和乘法的运算，根据符号的优先级，先对乘法进行求解，即调用乘法运算的函数，再调用加法运算的函数，如此，便只需列出一个个函数，从而进行判断时，用到哪个调用哪个，提高了代码的通用性

以我前些时候学到的单链表为例；

在源文件中建立许许多多的函数，如果在后续需要对函数进行调用就在后面直接使用函数即可，无需重新建立，这样子可以是组合更加自由，例如我可以先头插一个元素，然后进行打印在进行一个头插。

在这里我想表达的意思是任何一道不同的数学题目都有其特定的解题顺序，而建立函数使其只需记住不同的顺序，然后对其函数进行调用，便可以使千变万化的解法变得统一。

例如，在这道题目中

对于我们而言，求解方法可能数不胜数

但是对于电脑，可能是有一固定的步骤

即识别到题目中的“最大值”和“区间（-1，1）”便将解题步骤刻画完毕

即：

第一步将函数y=x^2+1进行求导得y’=2x

第二步令求导后的结果为0即2x=0，求得其拐点为x=0

第三步进行判断，即判断x<0是y’的值，判断是否存在存在极大值，对于本道题目而言存在极小值，并不存在极大值

因此终结后续流程，直接return，并且给出选项D

（以上基于我的猜想）

如果存在则进行

第四步判断是否在区间内

第五步将最大值代数求解

对于则这道题目而言，我们可以调用求导函数，调用代值函数，调用判断函数，通过不断地调用函数，从而使得其每一道题目按自己的解题步骤完成并且准确的显现在使用者面前

Tip：我不太清楚AI是如何识别函数图像的，因此按照可以用电脑解释的逻辑进行排步骤。

3，调用合适的数学运算，推理模块

这是我简要编写的一个c语言代码

即求解鸡兔同笼问题

我认为可以完全按照我的猜想进行实现

即首先对题目进行识别，即识别出来只数和腿数

并且将识别结果反馈给程序

程序进行运算并且将运算过程打印

再进行判断，不过对于此题目过于简单，无法进行分成不同的步骤进行运算，因此一步到底

推理模块即为一些固定的文字，从而给人一种错觉，即“你懂了”而实际上，这种固定的文字以及证明题对于只会运用0和1的计算机并不了解，就反复让豆包帮我解答一道证明题目，那么，换一种同类型的证明题目说使用的文字完全相同

4，验证逻辑

讲真的，这一部分我再一次进行了大胆的猜想，即如果我是研发人员，我会如何解决这个问题，而并不是真正的解法，可能是一个很大的谬论

由于AI写出的数学题大部分都是很简单的一些数学题目

因此我认为一道AI解答数学题常常存在最少两种解法，也正是因为如此，我能想到最好的验证逻辑的方法便是用另一种方法进行求解，即在数学的求积分，有第一换元积分法和第二还原积分法，而AI给出的数学答案却只含有一个解法，因此我猜想提出的逻辑验证即为用第二种方法进行求解，倘若这一道题目非常简单，或者这一方法使用所有题目，便不进行逻辑验证，比如1+1=2这种问题上。

5，引用文献

CSDN--图片识别，从图片中提取文字，OCR，来个大包的二重积分，2024，4

地址；图片识别，从图片中提取文字，OCR_图片ocr-CSDN博客

CSDN--怎么把图片转文字？快来看看如何高效处理图片中的文本信息吧，普通网友，2024，4

地址；怎么把图片转文字？快来看看如何高效处理图片中的文本信息吧-CSDN博客

Github--Umi-OCR

地址；

GitHub - hiroi-sora/Umi-OCR: OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

豆包

地址；豆包 - 字节跳动旗下 AI 智能助手

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。