玩转ChatGPT:DeepSeek测评(花式排班)

一、写在前面

我们继续来测试DeepSeek-R1的能力,这一次来解决一个实际问题:

排班、排值日,其实就是按要求排序问题。

二、花式排班

我有一个朋友(你们懂的),他得排2月份的值班表,但是呢,赶上假期,大家返工日期还不一样,所以叫做花式排班

此时,可以把结果丢给大模型们,让它们深度思考一下,并给出结果(一次结果)。

这回还是输入Kimi-1.5、DeepSeek-R1和GPT-4-o3-mini-high,坐山观虎斗。

(1)咒语

帮我排今年2月份的值班表(附表1),符合以下条件:

(1)需要考虑每一个人的返工时间(附表2);

(2)2月12号和2月26号不用排;

(3)返工日期是指当天能到,意味着至少第二天才能排值日,但是尽量不要安排返工第二天值班,除非无法安排;

(4)不要出现连续2天值日的情况,且每个人每个月值日次数要大体一致(不要超过2次);

(5)返工早的尽量安排到前面值班;

(6)同等条件下可以按照一定规则来排序,例如首字母、笔画顺序等,统一即可。

(7)总体上要求符合公平合理的原则。

请以表格的形式输出,并给出排列依据。

附表1:(

2月5日

2月6日  

2月7日

2月8日

2月9日

2月10日

2月11日

2月12日 不用排

2月13日

2月14日

2月15日

2月16日

2月17日

2月18日

2月19日

2月20日

2月21日

2月22日

2月23日

2月24日

2月25日

2月26日 不用排

2月27日

2月28日

);

附表2:(

姓名 返工日期

张三 2025年2月7日

李四 2025年2月11日

赵五 2025.02.12

孙悟空 2025年2月11号

杨戬 2025年2月15日

哪吒 2025年2月5日

敖丙 2025.02.14

申公豹 2025年2月10日

鹿童 2025年2月15日

虎先锋 2025.2.15

黄风大胜 2025.2.5)

闲聊:所有大模型咒语的使用技巧都一样的,详细的可以看看我之前的内容。

(2)Kimi - k1.5 长思考模式 打开联网

思考过程就不放了,过程比较快:

然后是结果:

整体排列依据 :

(a)首先考虑返工时间,返工早的优先安排靠前日期值班。

(b)避免返工第二天值班,除非无法安排,如部分人员返工日期集中时合理微调。

(c)确保不出现连续 2 天值班情况,每次安排后间隔至少一天。

(d)每人每月值班次数控制在 2 次左右,大体一致。

(e)同等条件下按姓名首字母排序,如哪吒与黄风大胜返工日期同为最早,哪吒首字母靠前先安排。

(f)总体遵循公平合理原则,综合考虑返工日期、间隔、次数等因素,合理分配值班任务,使排班既能满足工作需求,又公平对待每一位值班人员

(3)DeepSeek- 深度思考(R1)模式 无联网

思考过程比Kimi要久,一共是307秒,思考字数达到了1万字,真的是深入思考:

结果如下:

关键逻辑说明

(a)冲突解决:

- 2月5日因所有人员返工日期均在2/5或之后,默认允许黄风大胜当天值班(条件3微调)。

- 返工次日值班仅发生在哪吒(2/6)和赵五(2/13),因无其他候选人可选。

(b)公平性控制:

- 每人值班2次(共11人需22次,实际21天,黄风大胜多1次)。

- 通过交替填充和间隔分配避免连续值班。

(c)优先级规则:

- 返工日期早>首字母(拼音序:H黄风大胜>N哪吒>Z张三>L李四>S孙悟空>Z赵五>A敖丙>Y杨戬>L鹿童>H虎先锋)。

(3)ChatGPT - 4o3-mini-high模式 打开联网

首先是思考过程,很久,一共是7分50秒,思考了2万3千字:

结果如下:

下面给出一个“尽可能满足各项要求”的示例排班方案,表中除2月12日和2月26日外的 22 个值班日期中,每人各担 2 次,且:

【返工考虑】

“返工日期”规定:理论上“返工当日不排、至少翌日才可安排”,因此返工较早者本应晚一点安排(避免返工第二天上班),但由于月初无人可选,2月5、6、7难免出现例外(见备注)。

【排序原则】

(a)按各人返工日期“由早到晚”排序,若返工日相同则按姓名字母(或约定的顺序)排列。

(b)返工日期越早者尽量安排在月初值班;返工较晚者安排在中后段。

(c)每人值班次数力求均等(本例均为2次);同时避免同一人连续2天上班。

下面给出一个示例排班表(备注中标出个别“违例”情况):

【说明与依据】

(a)根据附表2,各人返工日期由早到晚排序为

  黄风大胜、哪吒(均2月5日)→张三(2月7日)→申公豹(2月10日)→李四、孙悟空(2月11日)→赵五(2月12日)→敖丙(2月14日)→虎先锋、鹿童、杨戬(均2月15日)。

  因此,本方案尽量将返工早者安排在月初(2月5~10日),而后返工者安排在中后段(2月11日以后)。

(b)为保证每人2次值班,22个可排日期均被利用;为避免连续2天上班,同一人两次值班均错开至少1天。

(c)关于“返工次日不排”原则:由于2月初无人能选(全体均未返工前),2月5、6、7等日期均“迫于安排”出现了例外,后续安排中则尽量避免了这种情况(例如申公豹虽不宜2月11值班,但中旬前无人候选,只能安排)。

(d)2月12日与2月26日均按要求“暂停排班”。

(e)同等条件下,若有多个候选,则采用约定顺序(例如黄风大胜在同返工日中排在前)。

【总体评价】

本方案在总体上做到:

(a)各人值班次数均为2次,基本公平;

(b)同一人两次值班均不连续;

(c)排班顺序大体上体现了“返工早者尽量前排”的原则;

(d)尽管月初因人员均未提前返工而出现“违例”情况,但除不可避免情形外,其他时间段均尽量不安排返工次日值班。

这仅是众多可能方案中的一种示例,实际排班时可根据具体情况进行微调。

三、第三方评价

以上回答,孰优孰劣,大家心中自有定论。

下面我让GPT-4-o1来分析分析,当个乐子看吧:

当然,这只是一锤子买卖的结果,毕竟我的咒语考虑得到的情况有限。因此,后续微调的结果如何,我还没有测试。还是那个原则,不要妄想一次对话就能得到完美答案。

四、试一试非推理模型

谣传AI 能力等级划分: 聊天 (Level 1)、推理 (Level 2)、Agent (Level 3)。目前 AI 正处于 Level 2 向 Level 3 过渡阶段。

所以我们试试常规的L1模型在做花式排序的效果如何,大家自行感受一下:

(1)GPT-4o:

(2)Kimi 不是1.5模式

(3)DeepSeek 不是R1模型

这个似乎看不出啥是吧,让o1来判断一下:

五、写在最后

确实,目前 AI 正处于 Level 2 向 Level 3 过渡阶段,也就是从推理朝向智能体Agent发展。最近,OpenAI推出的deep research就是一种智能体,虽然号称TOP1,但是准确率似乎也就30%不到,相信国内的DSer们还会给我们惊喜!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jet4505

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值