一、写在前面
我们继续来测试DeepSeek-R1的能力,这一次来解决一个实际问题:
排班、排值日,其实就是按要求排序问题。
二、花式排班
我有一个朋友,他得排2月份的值班表,但是呢,赶上假期,大家返工日期还不一样,所以叫做花式排班。(你们懂的)
此时,可以把结果丢给大模型们,让它们深度思考一下,并给出结果(一次结果)。
这回还是输入Kimi-1.5、DeepSeek-R1和GPT-4-o3-mini-high,坐山观虎斗。
(1)咒语
帮我排今年2月份的值班表(附表1),符合以下条件:
(1)需要考虑每一个人的返工时间(附表2);
(2)2月12号和2月26号不用排;
(3)返工日期是指当天能到,意味着至少第二天才能排值日,但是尽量不要安排返工第二天值班,除非无法安排;
(4)不要出现连续2天值日的情况,且每个人每个月值日次数要大体一致(不要超过2次);
(5)返工早的尽量安排到前面值班;
(6)同等条件下可以按照一定规则来排序,例如首字母、笔画顺序等,统一即可。
(7)总体上要求符合公平合理的原则。
请以表格的形式输出,并给出排列依据。
附表1:(
2月5日
2月6日
2月7日
2月8日
2月9日
2月10日
2月11日
2月12日 不用排
2月13日
2月14日
2月15日
2月16日
2月17日
2月18日
2月19日
2月20日
2月21日
2月22日
2月23日
2月24日
2月25日
2月26日 不用排
2月27日
2月28日
);
附表2:(
姓名 返工日期
张三 2025年2月7日
李四 2025年2月11日
赵五 2025.02.12
孙悟空 2025年2月11号
杨戬 2025年2月15日
哪吒 2025年2月5日
敖丙 2025.02.14
申公豹 2025年2月10日
鹿童 2025年2月15日
虎先锋 2025.2.15
黄风大胜 2025.2.5)
闲聊:所有大模型咒语的使用技巧都一样的,详细的可以看看我之前的内容。
(2)Kimi - k1.5 长思考模式 打开联网
思考过程就不放了,过程比较快:
然后是结果:
整体排列依据 :
(a)首先考虑返工时间,返工早的优先安排靠前日期值班。
(b)避免返工第二天值班,除非无法安排,如部分人员返工日期集中时合理微调。
(c)确保不出现连续 2 天值班情况,每次安排后间隔至少一天。
(d)每人每月值班次数控制在 2 次左右,大体一致。
(e)同等条件下按姓名首字母排序,如哪吒与黄风大胜返工日期同为最早,哪吒首字母靠前先安排。
(f)总体遵循公平合理原则,综合考虑返工日期、间隔、次数等因素,合理分配值班任务,使排班既能满足工作需求,又公平对待每一位值班人员
(3)DeepSeek- 深度思考(R1)模式 无联网
思考过程比Kimi要久,一共是307秒,思考字数达到了1万字,真的是深入思考:
结果如下:
关键逻辑说明
(a)冲突解决:
- 2月5日因所有人员返工日期均在2/5或之后,默认允许黄风大胜当天值班(条件3微调)。
- 返工次日值班仅发生在哪吒(2/6)和赵五(2/13),因无其他候选人可选。
(b)公平性控制:
- 每人值班2次(共11人需22次,实际21天,黄风大胜多1次)。
- 通过交替填充和间隔分配避免连续值班。
(c)优先级规则:
- 返工日期早>首字母(拼音序:H黄风大胜>N哪吒>Z张三>L李四>S孙悟空>Z赵五>A敖丙>Y杨戬>L鹿童>H虎先锋)。
(3)ChatGPT - 4o3-mini-high模式 打开联网
首先是思考过程,很久,一共是7分50秒,思考了2万3千字:
结果如下:
下面给出一个“尽可能满足各项要求”的示例排班方案,表中除2月12日和2月26日外的 22 个值班日期中,每人各担 2 次,且:
【返工考虑】
“返工日期”规定:理论上“返工当日不排、至少翌日才可安排”,因此返工较早者本应晚一点安排(避免返工第二天上班),但由于月初无人可选,2月5、6、7难免出现例外(见备注)。
【排序原则】
(a)按各人返工日期“由早到晚”排序,若返工日相同则按姓名字母(或约定的顺序)排列。
(b)返工日期越早者尽量安排在月初值班;返工较晚者安排在中后段。
(c)每人值班次数力求均等(本例均为2次);同时避免同一人连续2天上班。
下面给出一个示例排班表(备注中标出个别“违例”情况):
【说明与依据】
(a)根据附表2,各人返工日期由早到晚排序为:
黄风大胜、哪吒(均2月5日)→张三(2月7日)→申公豹(2月10日)→李四、孙悟空(2月11日)→赵五(2月12日)→敖丙(2月14日)→虎先锋、鹿童、杨戬(均2月15日)。
因此,本方案尽量将返工早者安排在月初(2月5~10日),而后返工者安排在中后段(2月11日以后)。
(b)为保证每人2次值班,22个可排日期均被利用;为避免连续2天上班,同一人两次值班均错开至少1天。
(c)关于“返工次日不排”原则:由于2月初无人能选(全体均未返工前),2月5、6、7等日期均“迫于安排”出现了例外,后续安排中则尽量避免了这种情况(例如申公豹虽不宜2月11值班,但中旬前无人候选,只能安排)。
(d)2月12日与2月26日均按要求“暂停排班”。
(e)同等条件下,若有多个候选,则采用约定顺序(例如黄风大胜在同返工日中排在前)。
【总体评价】
本方案在总体上做到:
(a)各人值班次数均为2次,基本公平;
(b)同一人两次值班均不连续;
(c)排班顺序大体上体现了“返工早者尽量前排”的原则;
(d)尽管月初因人员均未提前返工而出现“违例”情况,但除不可避免情形外,其他时间段均尽量不安排返工次日值班。
这仅是众多可能方案中的一种示例,实际排班时可根据具体情况进行微调。
三、第三方评价
以上回答,孰优孰劣,大家心中自有定论。
下面我让GPT-4-o1来分析分析,当个乐子看吧:
当然,这只是一锤子买卖的结果,毕竟我的咒语考虑得到的情况有限。因此,后续微调的结果如何,我还没有测试。还是那个原则,不要妄想一次对话就能得到完美答案。
四、试一试非推理模型
谣传AI 能力等级划分: 聊天 (Level 1)、推理 (Level 2)、Agent (Level 3)。目前 AI 正处于 Level 2 向 Level 3 过渡阶段。
所以我们试试常规的L1模型在做花式排序的效果如何,大家自行感受一下:
(1)GPT-4o:
(2)Kimi 不是1.5模式
(3)DeepSeek 不是R1模型
这个似乎看不出啥是吧,让o1来判断一下:
五、写在最后
确实,目前 AI 正处于 Level 2 向 Level 3 过渡阶段,也就是从推理朝向智能体(Agent)发展。最近,OpenAI推出的deep research就是一种智能体,虽然号称TOP1,但是准确率似乎也就30%不到,相信国内的DSer们还会给我们惊喜!